问答
分享
官网
请先登录
ollama 本地化部署满血版 DeepSeek-r1:671b
wolfcode
通用
分享
1月前
分享内容
105 浏览
2025-02-12
分享
加入收藏
写评论
0
个评论
我也来评论
登录后评论
作者 🐼
wolfcode
人生一场虚空大梦,韶华白首,不过转瞬。惟有BUG恒在,往复循环,不曾更改。
查看作者主页
查看 Git 页面
发布 👻
发布问答
发布分享
临时 🔈
> 原版 DeepSeek R1 671B 全量模型的文件体积高达 720GB,当然这不仅仅是硬盘的问题, 要流畅运行这个配置,你还需要多路算力显卡、高端多核的CPU。这配置定不是普通用户 可以配置得起的! # 硬件需求(建议) > DeepSeek-R1-UD-IQ1_M:内存 + 显存 ≥ 200 GB > > DeepSeek-R1-Q4_K_M:内存 + 显存 ≥ 500 GB # 部署步骤 ### 安装 ollama > 访问 https://ollama.com 按照流程安装 ### 下载模型文件 > 从 HuggingFace ( https://huggingface.co/unsloth/DeepSeek-R1-GGUF ) 下载模型的 .gguf 文件(文件体积很大,可以尝试利用专业下载工具)。 ### 创建 Modelfile 文件 **文件 DeepSeekQ1_Modelfile(对应于 DeepSeek-R1-UD-IQ1_M)的内容如下:** ```shell FROM /path/your_path/DeepSeek-R1-UD-IQ1_M.gguf PARAMETER num_gpu 28 PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>" ``` **文件 DeepSeekQ4_Modelfile(对应于 DeepSeek-R1-Q4_K_M)的内容如下:** ```shell FROM /path/your_path/DeepSeek-R1-Q4_K_M.gguf PARAMETER num_gpu 8 PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>" ``` > 其中 /path/your_path 换成你当前的文件路径,需要确保你的硬盘有足够空间 可根据自身硬件情况调整 num_gpu(GPU 加载层数)和 num_ctx(上下文窗口大小) ### 创建自定义模型 ```shell ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile ``` 这个命令会在模型目录建立若干模型文件,体积与下载的.gguf 文件体积相当。 ### 运行模型 ```shell ollama run DeepSeek-R1-UD-IQ1_M --verbose ``` > --verbose 参数用于显示推理速度(token / 秒)。 > 若提示内存不足或CUDA错误,需返回步骤 4 调整参数后,重新创建和运行模型。 > num_gpu:加载至 GPU 的模型层数。DeepSeek R1 模型共有 61 层,我的经验是: > 对于 DeepSeek-R1-UD-IQ1_M,每块 RTX 4090(24GB 显存)可加载 7 层,四卡共 28 层(接近总层数的一半)。 > 对于 DeepSeek-R1-Q4_K_M,每卡仅可加载 2 层,四卡共 8 层。 > num_ctx:上下文窗口的大小(默认值为 2048),建议从较小值开始逐步增加,直至触发内存不足的错误。 **这样,属于你自己的满血版 DeepSeek-r1:671b 大模型就成功安装在你的服务器里面,并且可以成功进行访问**
问答
分享
官网
登录
⬆️