下载模型

首先打开HuggingFace官网(需要科学上网),在首页上方点击Models,通过模型名称检索模型(以DeepSeek-R1-Distill-Qwen-7B为例),在模型检索框内输入检索的模型名称后按回车键检索,由于使用ollama部署,我们观察检索结果,选择结果中后缀带有GGUF字样的模型,点击查看,在跳转的页面中,清楚显示了模型作者分享的各种量化版本,选择合适的版本,点击名称进行下载,等待下载完即可。

在模型页面,作者通常附有如何选择对应模型的解释,一般来说按照以下的方式选择:

  1. 获取本地电脑显存信息:打开任务管理器(右键任务栏点击任务管理器,或使用快捷键Ctrl+Shift+ESC打开),点击上方列表的性能,在左侧列表内点击GPU,可以看到GPU内存大小,其中有专用GPU内存大小和共享GPU内存大小,专用的代表GPU本身的内存大小,共享的代表由内存条额外共享的内存大小,总的GPU内存大小为这两者之和,如果想要生成速度尽可能快,仅关注专用GPU内存大小就行,如果希望牺牲一定的速度换取性能,可关注总的GPU内存大小。
  2. 选择量化大小:原则为选择文件大小约比GPU内存大小至少小1~2个G的量化版本。
  3. 选择量化类型:通常选择K-quant版本就行,如QX_K_XQ5_K_M

创建Ollama识别文件

下载完成后,新建一个文本文件创建(如deepseek-r1:32b-modelfile.txt)ollama的可识别Modelfile文件,使用记事本编辑内容,将以下内容复制后保存:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# FROM deepseek-r1:14b (标记模型名称)

# 从本地 GGUF 文件加载模型,路径替换为实际的文件路径,最好不要包含中文。
# 如果路径包含反斜杠 \,需用双反斜杠 \\ 或正斜杠 /表示。
FROM C:\Users\77177\.ollama\models\blobs\sha256-6e9f90f02bb3b39b59e81916e8cfce9deb45aeaeb9a54a5be4414486b907dc1e

# 设置对话模板(不用管)
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<|User|>{{ .Content }}
{{- else if eq .Role "assistant" }}<|Assistant|>{{ .Content }}{{- if not $last }}<|end▁of▁sentence|>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<|Assistant|>{{- end }}
{{- end }}"""
PARAMETER stop <|begin▁of▁sentence|>
PARAMETER stop <|end▁of▁sentence|>
PARAMETER stop <|User|>
PARAMETER stop <|Assistant|>

通过命令行创建模型

  1. 以管理员身份打开 PowerShell
    右键点击Windows 开始菜单 → 选择 **Windows PowerShell (**管理员)
  2. 执行创建命令
    输入以下命令(替换你的 Modelfile 路径和模型名):
1
ollama create my-deepseek-r1 -f "D:\models\deepseek-r1-modelfile.txt"
  • my-deepseek-r1:自定义的模型名称(可任意命名,如 deepseek-r1:32b-q6kl)。
  • -f:指定Modelfile文件的路径
  1. 验证是否成功
    如果看到以下输出,表示模型已创建:

    1
    Successfully created 'my-deepseek-r1'
  2. 运行模型

1
ollama run my-deepseek-r1
  • 输入测试问题(如 你好,你能做什么?),观察模型是否正常响应。