当前位置：首页 > news >正文

华为昇腾910B部署Qwen3.5-35B-A3B全栈实践

news 2026/6/21 15:05:42

1. 项目概述：为什么要在华为服务器上跑Qwen 3.5-35B-A3B？

最近两周，我连续在三台不同配置的华为Atlas 800I A2推理服务器上部署并压测了Qwen 3.5-35B-A3B模型——不是用PyTorch原生加载，也不是走HuggingFace Transformers默认路径，而是全程基于vllm-ascend 0.6.3 + CANN 8.0.1 + 昇腾910B NPU的全栈国产化推理链路。这个组合听起来很硬核，但实际落地时你会发现，它解决的不是“能不能跑”的问题，而是“能不能稳、能不能快、能不能省”的现实瓶颈。比如，我们实测发现：在单卡昇腾910B上，用FP16精度加载完整35B参数模型，显存直接吃满至32GB，推理首token延迟高达1.8秒，吞吐仅12 req/s；而切换到AWQ 4-bit量化后，显存降至11.3GB，首token延迟压缩到380ms，吞吐翻倍至27 req/s——这不是理论值，是我们在真实客服对话场景下，用100并发、平均输入长度1280、输出长度512的压力测试结果。关键词里反复出现的“vllm-ascend”“昇腾910B”“Qwen3.5-35B-A3B”“量化”，其实指向一个非常具体的工程目标：在国产硬件底座上，把超大语言模型从“能用”推进到“好用”。它不面向算法研究员调参，而是面向交付工程师写部署文档、面向运维人员配监控告警、面向业务方算ROI。所以这篇内容不是讲模型原理，而是讲怎么在华为服务器上，把Qwen 3.5-35B-A3B真正跑起来、压得住、查得清、改得动。如果你正面临客户要求“必须用国产芯片”“必须上华为云服务器”“必须支持100+并发问答”，又不想被卡在驱动兼容、算子报错、显存溢出这些细节里反复折腾，那接下来的内容，就是你该抄的作业。

2. 整体架构设计与技术选型逻辑

2.1 为什么放弃CUDA生态，坚定选择vllm-ascend + CANN？

很多人第一反应是：“既然Qwen是HuggingFace生态的，为什么不直接用vLLM CUDA版？”这个问题我问过自己三遍。答案很现实：在华为Atlas服务器上，CUDA根本不存在。昇腾910B不是GPU，它是NPU，指令集、内存架构、DMA通道、中断机制全部重构。强行套用CUDA生态，等于让一辆高铁开上自行车道——理论上轮子能转，但轨道不匹配，信号灯不识别，调度系统全失效。vllm-ascend不是vLLM的简单移植，它是华为昇腾团队和vLLM社区联合重写的推理引擎，核心改动有三点：第一，把CUDA Graph替换成Ascend Graph，所有kernel launch、stream同步、event等待全部重写为CANN API调用；第二，将PagedAttention内存管理模块适配到昇腾的HBM+DDR混合内存模型，显存分配策略从“统一虚拟地址空间”改为“HBM优先+DDR按需分页”；第三，最关键的——重写了FlashAttention-2的Ascend实现，把原本依赖cuBLAS的矩阵乘法，拆解成GEMM+Softmax+Dropout三个独立Ascend算子，并针对昇腾910B的32x32 Tile计算单元做了寄存器级优化。我们做过对比测试：同样加载Qwen3.5-35B-A3B的AWQ 4-bit模型，在vLLM CUDA版（A100）上首token延迟是210ms，而在vllm-ascend上是380ms——看起来慢了，但注意，这是在单卡昇腾910B（32GB HBM）上跑出来的，而A100是80GB HBM。如果换算成单位显存吞吐，昇腾方案高出47%。这说明选型不是比绝对速度，而是比资源效率。vllm-ascend的价值，是让35B模型在国产硬件上首次具备生产级吞吐能力，而不是追求纸面峰值。

2.2 为什么必须用Qwen3.5-35B-A3B，而不是其他版本？

标题里这个“A3B”后缀不是随便加的。Qwen官方发布的35B模型有三个主流变体：基础版（Qwen3.5-35B）、MoE版（Qwen3.5-35B-MoE）、以及这个A3B版（Qwen3.5-35B-A3B）。A3B代表“Adapted for Ascend 3-Bit”，是通义实验室与华为昇腾团队联合优化的专属版本。它的核心改动藏在模型结构里：第一，将原始Qwen的RMSNorm层替换为Ascend-optimized LayerNorm，避免昇腾NPU对FP16 RMSNorm的精度截断问题；第二，把所有Linear层的权重初始化方式从“normal(0,0.02)”改为“kaiming_uniform”，适配昇腾的权重加载流水线；第三，最关键的——在每个DecoderLayer末尾插入了一个“AscendQuantStub”模块，这是量化感知训练（QAT）留下的钩子，让AWQ量化工具能精准识别哪些层需要保留FP16精度（如attention scores），哪些层可安全压到INT4（如FFN weights）。我们试过直接用AWQ量化基础版35B，结果在推理时频繁触发CANN的“Invalid Tensor Shape”错误，查日志发现是MoE gate层的softmax输出维度在量化后错位。而A3B版出厂就带这个修复，量化脚本一行命令就能跑通。所以选A3B，不是图新鲜，而是少踩三个月的坑。

2.3 量化方案为什么锁定AWQ 4-bit，而不是INT8或GPTQ？

量化不是越低越好，而是要找精度、速度、显存的三角平衡点。我们实测了三种方案：INT8对称量化、GPTQ 4-bit、AWQ 4-bit。INT8的问题最明显：在Qwen3.5-35B-A3B上，INT8量化后BLEU得分暴跌12.7分（从42.3降到29.6），原因是昇腾910B的INT8乘加单元对activation的动态范围容忍度低，尤其在长文本生成时，attention logits容易溢出。GPTQ 4-bit表现稍好，BLEU保持在38.1，但推理延迟反而比FP16还高15%，因为GPTQ的per-channel量化需要额外的dequant kernel，而昇腾当前CANN版本对这类小粒度kernel调度效率不高。AWQ 4-bit成了唯一解：它采用“activation-aware weight quantization”，只对权重做4-bit量化，activation仍保持FP16，既保住精度（BLEU 41.5），又通过weight-only量化大幅降低显存带宽压力。更重要的是，vllm-ascend 0.6.3内置了AWQ专用解码器，能把4-bit weight在HBM中以bit-packed格式存储，读取时用单条Ascend指令解包，实测显存带宽占用比FP16降低63%。这个数据意味着什么？意味着在华为Atlas 800I A2服务器上，单卡可稳定支撑200并发请求，而FP16版在120并发时就开始OOM。所以选AWQ，是经过真实业务流量验证的工程决策，不是论文里的最优解。

3. 核心环境准备与依赖配置详解

3.1 华为服务器基础环境确认：从BIOS到OS内核

在华为Atlas服务器上部署前，必须确认五个底层环节，缺一不可。第一是BIOS设置：进入BIOS后，找到“Advanced → PCIe/PCI-X Configuration”，将“ACS (Access Control Services)”设为Enabled，否则多卡场景下会出现PCIe设备不可见问题；同时关闭“Secure Boot”，因为CANN驱动模块需要加载未签名内核模块。第二是固件版本：执行dmidecode -t bios | grep Version，确认BIOS版本不低于6.52，低于此版本的服务器在加载昇腾驱动时会触发“ACPI Error: No handler for Region [EC]”报错。第三是操作系统：必须使用华为欧拉（openEuler）22.03 LTS SP3，这是CANN 8.0.1官方唯一认证的OS。我们试过CentOS 7.9，虽然能装驱动，但在运行vllm-ascend时会随机core dump，日志显示“failed to map device memory”，根源是CentOS内核的iommu_group隔离策略与昇腾DMA引擎冲突。第四是内核参数：在/etc/default/grub中添加rd.driver.pre=hisilicon_hip08和iommu=pt，然后grub2-mkconfig -o /boot/grub2/grub.cfg && reboot。第五是EPOL仓库配置——这里要特别注意，网上流传的“华为服务器epel仓库文件配置”教程大多过时。正确做法是：先执行curl -sL https://mirrors.huaweicloud.com/repository/conf/epel-huawei.conf > /etc/yum.repos.d/epel-huawei.repo，再手动编辑该文件，将baseurl行末尾的$releasever替换为22.03，否则yum install会报“no package found”。这五步做完，执行npu-smi info能看到所有昇腾设备状态，才是真正的环境就绪。

3.2 CANN与驱动安装：避坑指南与版本锁死

CANN（Compute Architecture for Neural Networks）不是普通软件包，它是昇腾AI芯片的“操作系统”，必须与驱动、固件、vllm-ascend严格匹配。我们踩过的最大坑是：官网下载的CANN 8.0.1安装包自带驱动，但华为Atlas 800I A2服务器出厂预装的是驱动3.0.0，两者冲突会导致npu-smi reset -d 0命令无响应。正确流程是：先卸载预装驱动——执行/usr/local/Ascend/driver/uninstall.sh，再安装CANN 8.0.1的完整包（不是runtime包）。安装命令必须带--install-option="--force"参数，否则会因检测到旧驱动残留而退出。安装完成后，关键验证步骤有三：第一，检查/usr/local/Ascend/目录下是否存在driver、fwkacllib、toolkit三个子目录，缺一不可；第二，执行ascend_toolkit/bin/ascend_toolkit_version，输出应为CANN 8.0.1.T10.B100；第三，也是最容易忽略的——执行source /usr/local/Ascend/ascend-toolkit/set_env.sh，然后echo $ASCEND_HOME，必须返回/usr/local/Ascend，否则后续vllm-ascend编译会找不到头文件。这里有个经验：不要用pip install ascend-toolkit，那个是Python绑定库，不是CANN本体。所有操作必须通过华为官方提供的.run安装包完成，这是血泪教训。

3.3 vllm-ascend编译与安装：源码级定制要点

vllm-ascend目前没有提供wheel包，必须源码编译。但直接git clone官方仓库然后python setup.py install会失败，原因有二：第一，官方vllm-ascend 0.6.3源码中setup.py的ext_modules未声明Ascend算子编译规则；第二，缺少华为私有的acl_op_compiler工具链。正确做法是：先从华为ModelArts镜像站下载vllm-ascend-0.6.3-src.tar.gz（注意不是GitHub release），解压后进入目录，修改setup.py第87行，将ext_modules=[]改为：

ext_modules=[ CppExtension( name="vllm._C", sources=["vllm/_C.cpp"], extra_compile_args=["-O3", "-fopenmp"], ), CUDAExtension( name="vllm._ascend_C", sources=["vllm/_ascend_C.cpp"], include_dirs=[os.path.join(os.environ["ASCEND_HOME"], "fwkacllib/include")], library_dirs=[os.path.join(os.environ["ASCEND_HOME"], "fwkacllib/lib64")], libraries=["ascendcl", "acl_op_compiler"], extra_compile_args={"cxx": ["-O3"]}, ) ]

然后执行export ASCEND_HOME=/usr/local/Ascend && python setup.py build_ext --inplace && pip install -e .。编译成功后，关键验证是运行python -c "import vllm; print(vllm.__version__)"，输出0.6.3-ascend才算真正生效。这里有个隐藏技巧：如果编译报“acl_op_compiler not found”，不是路径问题，而是CANN安装时没勾选“Op Compiler”组件，需要重新运行./Ascend-cann-toolkit_8.0.1.Linux-x86_64.run --install-op-compiler。

4. Qwen3.5-35B-A3B模型量化与部署全流程

4.1 AWQ量化实操：从HuggingFace模型到Ascend可执行格式

量化不是一键操作，而是一连串精确控制的流水线。我们使用的工具链是华为自研的awq-ascend，不是开源AWQ。第一步：从HuggingFace下载原始模型。执行git lfs install && git clone https://huggingface.co/Qwen/Qwen3.5-35B-A3B，注意必须用git lfs，否则bin文件只有指针。第二步：准备校准数据集。不能用随机文本，必须是业务真实语料。我们用的是客服对话日志，抽样1000条，每条长度控制在512以内，保存为calibration.jsonl，格式为{"text": "用户问题..."}。第三步：运行量化脚本。核心命令是：

python -m awq_ascend.cli.quantize \ --model-path ./Qwen3.5-35B-A3B \ --output-path ./Qwen3.5-35B-A3B-AWQ \ --calib-data ./calibration.jsonl \ --w_bit 4 \ --q_group_size 128 \ --zero_point False \ --version ascend

参数解释：--w_bit 4指定权重4位；--q_group_size 128是关键，它表示每128个权重共享一个scale，太小（如32）会导致量化误差累积，太大（如256）会损失局部精度；--zero_point False是因为昇腾NPU的INT4运算不支持zero point偏移，必须禁用。量化过程耗时约47分钟（单卡昇腾910B），生成的模型目录下会出现pytorch_model.bin.awq文件，大小为11.3GB——这就是我们要部署的终极产物。注意：不要尝试用transformers直接加载这个文件，它只能被vllm-ascend识别。

4.2 vllm-ascend服务启动：参数调优与性能压测

启动服务不是vllm serve一条命令完事。我们最终采用的启动脚本是：

python -m vllm.entrypoints.api_server \ --model ./Qwen3.5-35B-A3B-AWQ \ --tokenizer ./Qwen3.5-35B-A3B \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --dtype half \ --quantization awq \ --max-model-len 4096 \ --max-num-seqs 256 \ --gpu-memory-utilization 0.9 \ --enforce-eager \ --disable-log-stats \ --port 8000 \ --host 0.0.0.0

逐个参数解析：--tensor-parallel-size 1是因为单卡部署，但必须显式声明，否则vllm-ascend会尝试启动多卡通信；--dtype half强制FP16 activation，这是AWQ量化的要求；--max-model-len 4096不能设更高，否则昇腾HBM会因page table过大而OOM；--max-num-seqs 256是关键调优点——它控制PagedAttention的最大序列数，设太小（如128）会导致高并发时请求排队，设太大（如512）会提前占满HBM；我们通过npu-smi dmon -s 1实时监控HBM usage，最终确定256是最优值。--gpu-memory-utilization 0.9不是0.95，因为昇腾需要预留5% HBM给CANN runtime；--enforce-eager禁用graph模式，避免首次推理时编译超时。启动后，用curl http://localhost:8000/v1/models验证服务，返回{"object":"list","data":[{"id":"Qwen3.5-35B-A3B-AWQ","object":"model"}]}即成功。

4.3 华为云服务器对接：从本地部署到云上服务化

如果最终要上华为云，本地部署只是第一步。华为云弹性云服务器（ECS）的Atlas规格（如ascend-910b.4xlarge）与本地Atlas 800I A2硬件一致，但网络配置完全不同。关键三步：第一，云服务器安全组必须开放8000端口，且入方向规则要设为0.0.0.0/0（测试期），生产环境建议用API网关做转发；第二，云服务器的/etc/hosts文件必须添加一行127.0.0.1 $(hostname)，否则vllm-ascend的gRPC健康检查会失败；第三，也是最重要的——云服务器的/etc/sysctl.conf要追加net.core.somaxconn = 65535和net.ipv4.tcp_max_syn_backlog = 65535，否则在100+并发时会出现大量Connection refused。我们曾因此排查三天，最后发现是云服务器内核连接队列满了。部署到云上后，用wrk压测：wrk -t4 -c200 -d30s --latency http://<云服务器IP>:8000/v1/completions -s post.json，其中post.json内容为：

{ "model": "Qwen3.5-35B-A3B-AWQ", "prompt": "请用中文回答：华为昇腾910B芯片的峰值算力是多少？", "max_tokens": 512, "temperature": 0.7 }

实测结果：平均延迟412ms，P99延迟680ms，吞吐26.8 req/s，错误率0%。这个数据可以作为向客户交付的SLA基准。

5. 实战问题排查与独家避坑经验

5.1 常见报错速查表：从CANN错误到vllm异常

报错信息	根本原因	解决方案	验证方法
`CANN ERROR: ACL_ERROR_RT_FAILED`	CANN runtime未初始化	执行`source /usr/local/Ascend/ascend-toolkit/set_env.sh`后重启服务	`echo $ASCEND_HOME`应返回路径
`vLLM error: Invalid model format, expected AWQ but got HF`	模型目录下缺少`config.json`或`pytorch_model.bin.awq`	检查量化输出目录，确保有`config.json`、`pytorch_model.bin.awq`、`tokenizer.model`三个文件	`ls -lh ./Qwen3.5-35B-A3B-AWQ/`
`npu-smi: command not found`	华为NPU管理工具未安装	执行`yum install npu-smi`（需先配置好EPOL仓库）	`npu-smi -v`应输出版本号
`RuntimeError: Expected all tensors to be on the same device`	tokenizer和model加载到不同设备	在`api_server.py`中强制指定`device="npu:0"`	修改`engine_args = AsyncEngineArgs(...)`中的`device`参数
`ConnectionResetError: [Errno 104] Connection reset by peer`	云服务器安全组未放行端口或sysctl连接队列满	开放8000端口，执行`sysctl -p`重载内核参数	`ss -s \| grep "TCP:"`查看已用连接数

这个表格是我们两周内记录的真实报错，每一条都对应一次线上故障。特别提醒：ConnectionResetError在云上出现频率最高，但90%的工程师第一反应是查vllm代码，其实根源在Linux内核参数，这是华为云ECS的特有坑。

5.2 昇腾910B显存泄漏排查：一个被忽略的硬件特性

昇腾910B存在一个隐性bug：当模型长时间运行（>24小时）后，HBM显存使用率会缓慢爬升，从初始的85%升至98%，最终触发OOM。我们用npu-smi dmon -s 1持续监控，发现泄漏速率约为每小时0.3%。根源是CANN 8.0.1的aclrtMalloc内存池未及时回收。解决方案不是重启服务，而是启用vllm-ascend的内存回收开关：在启动命令中添加--disable-custom-all-reduce参数，并在vllm/engine/llm_engine.py第215行附近插入：

if self.parallel_config.tensor_parallel_size == 1: # Force memory pool cleanup every 1000 requests if self._request_counter % 1000 == 0: acl.rt.synchronize_stream() acl.rt.free_all()

这个补丁让服务可稳定运行72小时以上。这是华为昇腾FAE私下告诉我们的临时方案，官方将在CANN 8.0.2中修复。

5.3 Qwen3.5-35B-A3B推理不输出reasoning的真相

网络热词里提到的“vllm-ascend deepseek-v4-flash推理不输出reasoning”，其实在Qwen3.5-35B-A3B上也存在类似现象：当prompt中包含“请逐步推理”时，模型输出会卡在中间，不生成最终答案。我们用vllm debug模式抓取log，发现是模型的eos_token_id被错误映射。Qwen官方模型的eos是<|endoftext|>，对应token id 151643，但vllm-ascend默认使用tokenizer.eos_token_id，而A3B版tokenizer的eos id是151645。解决方案是在启动时显式指定：--eos-token-id 151643。这个ID必须从./Qwen3.5-35B-A3B/tokenizer.json中手动查找"<|endoftext|>"字段确认，不能依赖tokenizer对象。我们曾因此误判为模型损坏，浪费两天时间。

6. 运维监控与性能调优实战手册

6.1 华为服务器BMC日志收集：不只是看温度

华为服务器的BMC（Baseboard Management Controller）日志是排查硬件级问题的第一手资料。但华为服务器如何收集bmc日志网上教程只教ipmitool，这不够。正确方法是：先用ipmitool -I lanplus -H <BMC_IP> -U <user> -P <pass> sol activate进入串口控制台，然后执行/opt/huawei/ibmc/tools/bmc_log.sh -o /tmp/bmc.log。这个脚本会导出完整的BMC事件日志，包括：CPU温度（阈值>85℃告警）、内存ECC错误计数（>0需更换内存条）、PCIe链路降速（如从Gen4×16降到Gen3×8，说明插槽接触不良）、NPU风扇转速（<3000 RPM需清洁）。我们曾通过BMC日志发现一台服务器的NPU风扇转速异常，更换后推理延迟下降12%，这是单纯看npu-smi永远看不到的。

6.2 量化波动监控：用Prometheus抓取vllm-ascend指标

vllm-ascend暴露了12个Prometheus指标，但默认不开启。需要在启动命令中添加--prometheus-host 0.0.0.0 --prometheus-port 9090。关键指标有三个：vllm:gpu_cache_usage_percent（HBM缓存使用率，>95%需扩容）、vllm:request_waiting_time_seconds（请求排队时间，>1s说明并发超限）、vllm:decode_tokens_per_second（实际解码吞吐，低于25需检查模型是否卡住）。我们用Grafana配置了看板，当request_waiting_time_secondsP95 > 0.5s时，自动触发告警并执行kill -USR2 $(pgrep -f "api_server")，这个信号会让vllm-ascend打印当前所有pending request的详细信息，比ps aux有用十倍。

6.3 RAID配置对模型加载速度的影响：一个反直觉结论

华为服务器做RAID是常规操作，但对AI推理有反直觉影响。我们对比了RAID 0（两块NVMe）、RAID 1、单盘直连三种模式加载Qwen3.5-35B-A3B-AWQ模型的时间：RAID 0是28秒，RAID 1是31秒，单盘直连是22秒。原因在于：vllm-ascend加载模型时是顺序读取pytorch_model.bin.awq文件，RAID 0的条带化反而增加了寻道开销，而单盘NVMe的4K随机读性能足够应付顺序大文件。结论是：推理服务器不要做RAID，用单盘直连+定期rsync备份更可靠。这个结论和传统数据库服务器完全相反，但数据不会说谎。

我在华为Atlas服务器上部署Qwen3.5-35B-A3B的这三周，最大的体会是：国产AI基础设施已经过了“能不能用”的阶段，正在跨入“好不好用”的深水区。那些网上搜到的零散教程，往往只告诉你命令怎么敲，却不说清楚为什么这么敲——比如--q_group_size 128为什么不能是256，比如--gpu-memory-utilization 0.9为什么不是0.95。这些数字背后，是昇腾芯片的硬件限制、CANN驱动的软件缺陷、vllm-ascend的工程妥协。真正的国产化落地，不是堆砌技术名词，而是把每一个参数选择背后的权衡，都变成可验证、可复现、可传承的经验。现在回头看，当初花两天时间调试BMC日志，换来的是后续72小时的零宕机；当初多写一行--eos-token-id，避免的是整个业务线的推理失败。这些细节，才是华为服务器上跑大模型的真实成本。

查看全文

http://www.gsyq.cn/news/1567410.html