私有化和本地部署

如果你希望更深入地私有化集成 AI 功能，保护数据隐私，可以通过【七牛云市场】购买【专用云服务器】，将 DeepSeek-R1 部署到服务器上。这种方式适合需要定制化需求的客户，例如对模型进行训练、优化或扩展。

我们提供效果最完整和最具性价比的 1.73bit 量化 DeepSeek-R1 671b 全参版本供您部署使用：

1.73-bit 量化 671b 全参模型，显存需求大幅度下降到 158GB, 经我们测试验证，在七牛云提供的A100、V100、A10 等高性价比类型 GPU 服务器，均能快速推理，效率达到 7-8 token/s。
相对于 70B 及以下参数规模的蒸馏模型，671b 的全参模型激活的专家数更多，推理过程更精细、结果也更准确。

三步在线部署运行（小贴士）

STEP 1 从七牛云下载合并后的DeepSeek-R1量化模型（GGUF文件）

wget <https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf>

STEP 2 安装ollama，并创建Modelfile

# 2.1安装ollama
curl -fsSL <https://ollama.com/install.sh> | sh

# 2.2创建Modelfile描述文件
# 需要填写模型存放的路径
cat <<EOF > DeepSeekQ1_Modelfile
FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"
EOF

# 2.3创建 ollama 模型
# ollama会创建一个新模型，且大小与原始模型一样，如果/usr/路径下空间不足，
# 可以手动指定存储路径：vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/disk5/ollama/model"

# 2.4配置完成后需要重启ollama：
sudo systemctl daemon-reload
sudo systemctl restart ollama

/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile

STEP 3 运行模型

ollama run DeepSeek-R1-UD-IQ1_M --verbose
# 查看ollama日志：
journalctl -u ollama --no-pager
# 或访问本地API
curl -X POST <http://127.0.0.1:11434/api/generate> -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'

推荐GPU主机

# 1.通过脚本hfd.sh从国内huggingface镜像模下载型

wget <https://algorithm.qnaigc.com/DeepSeek/hfd.sh>
    bash hfd.sh unsloth/DeepSeek-R1-GGUF --include "DeepSeek-R1-UD-IQ1_M" --tool aria2c -x 8
 
 
# 2.安装llama.cpp用于模型合并
    下载zip压缩包：<https://github.com/ggerganov/llama.cpp/archive/refs/heads/master.zip>
    解压并命名为llama.cpp：mv llama.cpp-master llama.cpp
    执行如下指令：
    apt-get update
    apt-get install build-essential cmake curl libcurl4-openssl-dev -y
    cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
    cp llama.cpp/build/bin/llama-* llama.cpp
    合并模型：./llama.cpp/llama-gguf-split --merge ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
     
# 3.安装ollama用于模型运行
    curl -fsSL <https://ollama.com/install.sh> | sh
    （可能上面因为网络原因会失败，多尝试几次）
 
 
# 4.编辑模型描述文件
    创建文件：vim DeepSeekQ1_Modelfile
    描述文件需要填写模型存放的路径，内容如下；
    FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
    PARAMETER num_gpu 28
    PARAMETER num_ctx 2048
    PARAMETER temperature 0.6
    TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"
 
 
# 5.创建 ollama 模型
    ollama会创建一个新模型，且大小与原始模型一样，如果/usr/路径下空间不足，
    可以手动指定存储路径：vim /etc/systemd/system/ollama.service
    Environment="OLLAMA_MODELS=/disk5/ollama/model"
    配置完成后需要重启：
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    /usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
 
 
# 6.运行模型
    ollama run DeepSeek-R1-UD-IQ1_M --verbose
    查看ollama日志：journalctl -u ollama --no-pager
 
 
# 7.本地API
    curl -X POST <http://127.0.0.1:11434/api/generate> -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'