私有化和本地部署

如果你希望更深入地私有化集成 AI 功能,保护数据隐私,可以通过【七牛云市场】购买【专用云服务器】,将 DeepSeek-R1 部署到服务器上。这种方式适合需要定制化需求的客户,例如对模型进行训练、优化或扩展。

我们提供效果最完整和最具性价比的 1.73bit 量化 DeepSeek-R1 671b 全参版本供您部署使用:

  1. 1.73-bit 量化 671b 全参模型,显存需求大幅度下降到 158GB, 经我们测试验证,在七牛云提供的A100、V100、A10 等高性价比类型 GPU 服务器,均能快速推理,效率达到 7-8 token/s。
  2. 相对于 70B 及以下参数规模的蒸馏模型,671b 的全参模型激活的专家数更多,推理过程更精细、结果也更准确。

image.png

三步在线部署运行(小贴士)

wget <https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf>

# 2.1安装ollama
curl -fsSL <https://ollama.com/install.sh> | sh

# 2.2创建Modelfile描述文件
# 需要填写模型存放的路径
cat <<EOF > DeepSeekQ1_Modelfile
FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
EOF

# 2.3创建 ollama 模型
# ollama会创建一个新模型,且大小与原始模型一样,如果/usr/路径下空间不足,
# 可以手动指定存储路径:vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/disk5/ollama/model"

# 2.4配置完成后需要重启ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama

/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile

ollama run DeepSeek-R1-UD-IQ1_M --verbose
# 查看ollama日志:
journalctl -u ollama --no-pager
# 或访问本地API
curl -X POST <http://127.0.0.1:11434/api/generate> -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'

推荐GPU主机

image.png

# 1.通过脚本hfd.sh从国内huggingface镜像模下载型

wget <https://algorithm.qnaigc.com/DeepSeek/hfd.sh>
    bash hfd.sh unsloth/DeepSeek-R1-GGUF --include "DeepSeek-R1-UD-IQ1_M" --tool aria2c -x 8
 
 
# 2.安装llama.cpp用于模型合并
    下载zip压缩包:<https://github.com/ggerganov/llama.cpp/archive/refs/heads/master.zip>
    解压并命名为llama.cpp:mv llama.cpp-master llama.cpp
    执行如下指令:
    apt-get update
    apt-get install build-essential cmake curl libcurl4-openssl-dev -y
    cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
    cp llama.cpp/build/bin/llama-* llama.cpp
    合并模型:./llama.cpp/llama-gguf-split --merge ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
     
# 3.安装ollama用于模型运行
    curl -fsSL <https://ollama.com/install.sh> | sh
    (可能上面因为网络原因会失败,多尝试几次)
 
 
# 4.编辑模型描述文件
    创建文件:vim DeepSeekQ1_Modelfile
    描述文件需要填写模型存放的路径,内容如下;
    FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
    PARAMETER num_gpu 28
    PARAMETER num_ctx 2048
    PARAMETER temperature 0.6
    TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
 
 
# 5.创建 ollama 模型
    ollama会创建一个新模型,且大小与原始模型一样,如果/usr/路径下空间不足,
    可以手动指定存储路径:vim /etc/systemd/system/ollama.service
    Environment="OLLAMA_MODELS=/disk5/ollama/model"
    配置完成后需要重启:
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    /usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
 
 
# 6.运行模型
    ollama run DeepSeek-R1-UD-IQ1_M --verbose
    查看ollama日志:journalctl -u ollama --no-pager
 
 
# 7.本地API
    curl -X POST <http://127.0.0.1:11434/api/generate> -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'