当前位置：首页 > news >正文

DeepSeek-V3：6710亿参数开源大模型在昇腾平台上的完整部署指南 [特殊字符]

news 2026/6/1 3:55:43

DeepSeek-V3：6710亿参数开源大模型在昇腾平台上的完整部署指南 🚀

【免费下载链接】DeepSeek-V3项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/DeepSeek-V3

想要在昇腾平台上部署全球领先的6710亿参数开源大语言模型DeepSeek-V3吗？这篇终极指南将为你提供从零开始的完整部署教程！DeepSeek-V3作为深度求索于2024年12月发布的最新人工智能大型语言模型，基于创新的混合专家（MoE）架构，在数学推理、代码生成和知识理解等任务中表现出色，甚至能与GPT-4等闭源模型相媲美。更重要的是，它是全球前十中性价比最高的模型！

📋 部署前准备：硬件与软件要求

硬件配置要求

服务器数量：至少4台Atlas 800I A2（64G）服务器
存储空间：约1.4TB磁盘空间用于存储模型文件
网络环境：稳定的网络连接用于下载模型

软件环境要求

昇思MindSpore：AI计算框架
Docker环境：用于容器化部署
昇腾NPU驱动：确保NPU设备正常运行

🐳 第一步：获取DeepSeek-V3推理容器镜像

昇思MindSpore提供了专门的DeepSeek-V3推理容器镜像，这是最快捷的部署方式：

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/deepseek_v3_mindspore2.5.0-infer:20250217

启动容器时需要配置NPU设备映射和共享内存：

docker run -it --privileged --name=deepseek-v3 --net=host \ --shm-size 500g \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device /dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/sbin:/usr/local/sbin \ -v /etc/hccn.conf:/etc/hccn.conf \ swr.cn-central-221.ovaijisuan.com/mindformers/deepseek_v3_mindspore2.5.0-infer:20250217 \ bash

重要提示：确保所有容器的hostname不一致，避免冲突！

📥 第二步：下载DeepSeek-V3模型文件

在容器内执行以下步骤下载模型：

设置下载路径白名单：

export HUB_WHITE_LIST_PATHS=./model_path

使用Python脚本下载模型：
```
from openmind_hub import snapshot_download snapshot_download( repo_id="MindSpore-Lab/DeepSeek-V3", local_dir="./model_path", local_dir_use_symlinks=False )
```
下载内容包括：
- 模型权重文件（约1.4TB）
- 配置文件：examples/config.json
- 推理脚本：examples/run_deepseekv3_predict.py
- 配置文件：examples/predict_deepseek3_671B.yaml

⚙️ 第三步：配置模型参数

修改配置文件

编辑predict_deepseek3_671B.yaml文件，配置以下关键参数：

参数	说明	示例值
load_checkpoint	权重文件路径	/path/to/model_path
tokenizer_file	分词器文件路径	/path/to/tokenizer.json
vocab_file	词汇表文件路径	/path/to/tokenizer.json

DeepSeek-V3核心参数概览

总参数量：6710亿参数
隐藏层维度：7168
注意力头数：128
层数：61层
词汇表大小：129,280
最大序列长度：163,840 tokens
专家数量：256个MoE专家
每次激活专家数：8个

🌐 第四步：多机分布式部署配置

配置rank_table_file.json

创建分布式训练配置文件，包含以下关键信息：

{ "server_count": "4", "server_list": [ { "device": [ { "device_id": "0", "device_ip": "192.168.1.101", "rank_id": "0" }, // ... 更多设备配置 ], "server_id": "192.168.1.101", "container_ip": "192.168.1.101" }, // ... 更多服务器配置 ], "status": "completed", "version": "1.0" }

设置环境变量

export MS_SCHED_HOST=192.168.1.101 export MS_SCHED_PORT=8080 export MS_ENABLE_LCCL=off export HCCL_OP_EXPANSION_MODE=AIV export MIES_CONTAINER_IP=192.168.1.101 export RANKTABLEFILE=./rank_table_file.json export PYTHONPATH=/home/work/mindformers/:$PYTHONPATH export REGISTER_PATH=path/to/DeepSeek-V3/examples

🚀 第五步：启动推理服务

服务化部署方式

修改服务化配置文件：

cd /usr/local/Ascend/mindie/latest/mindie-service/ vim conf/config.json

关键配置参数：
- ipAddress：设置为主节点IP
- multiNodesInferEnabled：设置为true启用多机推理
- modelWeightPath：设置为模型文件夹绝对路径

启动服务：在所有节点上执行：

cd /usr/local/Ascend/mindie/latest/mindie-service/ ./bin/mindieservice_daemon

验证服务：当看到"Daemon start success!"输出时，表示服务启动成功。

本地推理方式

使用提供的脚本进行分布式推理：

Node 0（主节点）：

export HCCL_OP_EXPANSION_MODE=AIV export MS_ENABLE_LCCL=off export PYTHONPATH=/home/work/mindformers/:$PYTHONPATH master_ip=192.168.1.101 cd model_path/DeepSeek-V3/examples bash msrun_launcher.sh "run_deepseekv3_predict.py" 32 8 $master_ip 8888 0 output/msrun_log False 300

其他节点（Node 1-3）：

# 类似命令，只需修改rank_id参数 bash msrun_launcher.sh "run_deepseekv3_predict.py" 32 8 $master_ip 8888 1 output/msrun_log False 300

🔧 第六步：测试与验证

发送推理请求

使用curl命令测试模型推理功能：

curl -w "\ntime_total=%{time_total}\n" \ -H "Accept: application/json" \ -H "Content-type: application/json" \ -X POST \ -d '{"inputs": "请介绍一个北京的景点", "parameters": {"do_sample": false, "max_new_tokens": 128}, "stream": false}' \ http://192.168.0.133:9091/generate_stream &

使用Python脚本测试

运行提供的示例脚本进行测试：

# 从examples/run_deepseekv3_predict.py中提取的测试代码 input_questions = ["生抽和老抽的区别是什么？"] # ... 模型加载和推理代码 answer = tokenizer.decode(outputs) print("answer: ", answer)