ollama 本地化部署满血版 DeepSeek-r1:671b - EasyAdmin8 问答

> 原版 DeepSeek R1 671B 全量模型的文件体积高达 720GB，当然这不仅仅是硬盘的问题，要流畅运行这个配置，你还需要多路算力显卡、高端多核的CPU。这配置定不是普通用户可以配置得起的！ # 硬件需求（建议） > DeepSeek-R1-UD-IQ1_M：内存 + 显存 ≥ 200 GB > > DeepSeek-R1-Q4_K_M：内存 + 显存 ≥ 500 GB # 部署步骤 ### 安装 ollama > 访问 https://ollama.com 按照流程安装 ### 下载模型文件 > 从 HuggingFace （ https://huggingface.co/unsloth/DeepSeek-R1-GGUF ）下载模型的 .gguf 文件（文件体积很大，可以尝试利用专业下载工具）。 ### 创建 Modelfile 文件 **文件 DeepSeekQ1_Modelfile（对应于 DeepSeek-R1-UD-IQ1_M）的内容如下：** ```shell FROM /path/your_path/DeepSeek-R1-UD-IQ1_M.gguf PARAMETER num_gpu 28 PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>" ``` **文件 DeepSeekQ4_Modelfile（对应于 DeepSeek-R1-Q4_K_M）的内容如下：** ```shell FROM /path/your_path/DeepSeek-R1-Q4_K_M.gguf PARAMETER num_gpu 8 PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>" ``` > 其中 /path/your_path 换成你当前的文件路径，需要确保你的硬盘有足够空间可根据自身硬件情况调整 num_gpu（GPU 加载层数）和 num_ctx（上下文窗口大小） ### 创建自定义模型 ```shell ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile ``` 这个命令会在模型目录建立若干模型文件，体积与下载的.gguf 文件体积相当。 ### 运行模型 ```shell ollama run DeepSeek-R1-UD-IQ1_M --verbose ``` > --verbose 参数用于显示推理速度（token / 秒）。 > 若提示内存不足或CUDA错误，需返回步骤 4 调整参数后，重新创建和运行模型。 > num_gpu：加载至 GPU 的模型层数。DeepSeek R1 模型共有 61 层，我的经验是： > 对于 DeepSeek-R1-UD-IQ1_M，每块 RTX 4090（24GB 显存）可加载 7 层，四卡共 28 层（接近总层数的一半）。 > 对于 DeepSeek-R1-Q4_K_M，每卡仅可加载 2 层，四卡共 8 层。 > num_ctx：上下文窗口的大小（默认值为 2048），建议从较小值开始逐步增加，直至触发内存不足的错误。 **这样，属于你自己的满血版 DeepSeek-r1:671b 大模型就成功安装在你的服务器里面，并且可以成功进行访问**