当前位置: 首页 > news >正文

全网首份指令级拆解:华为昇腾950DT如何撬动DeepSeek 75%降价与字节锁单

一、一份拆解报告,搅动了整个AI算力江湖

6月12日,华尔街知名半导体研究机构SemiAnalysis发布了一份报告。这份报告不一般——他们拿到了华为昇腾950DT的样机,围绕DeepSeek V4的推理链路做了一次Trace级别的指令拆解。

结论可以用一句话总结:DeepSeek V4跑在昇腾950DT上,推理成本可以打掉75%。

75%是什么概念?如果把目前DeepSeek Pro的API调用价格砍到四分之一,它就不再只是"便宜好用"的选项,而是直接变成整个AI应用层的成本锚点。所有依赖模型调用的SaaS、Agent、Copilot类产品,成本结构会被彻底重写。

更值得注意的是,在这份拆解报告流传之前,字节跳动已经提前锁定了大批昇腾950DT订单。阿里的单子也在路上。这不是"观望",这是抢产能。

一家被制裁的中国公司造出的芯片,正在撬动全球AI推理的定价权。

二、从"能用"到"好用",昇腾走了多远

要理解950DT为什么重要,得先回到昇腾芯片的起点。

华为做AI芯片不是新闻。2018年的昇腾310、2019年的昇腾910,都是在制裁之前就规划好的产品线。但早期的昇腾有一个所有人都知道的痛点:硬件参数不差,软件生态太难啃。

CANN(华为的AI计算框架)和CUDA的差距,不是跑分能填平的。开发者要在昇腾上跑模型,光是算子适配就能把人折腾到怀疑人生。2023年《金融时报》的一篇报道直接点过:DeepSeek早期用昇腾训练时,“芯片稳定性差、互联速度慢、软件工具链不成熟”——三个问题,每一个都能让工程团队掉一层皮。

但从那时到现在,昇腾完成了几件关键的事:

第一,自研HBM。华为搞出了自己的高带宽内存HiBL 1.0和HiZQ 2.0。在美光、三星、SK海力士的HBM被出口管制卡脖子的背景下,这个突破的意义比芯片本身更大——它意味着华为在AI芯片最核心的"存算墙"问题上,有了一条自己的路。

第二,CANN Next兼容CUDA。新增了SIMT编程模型,开发者可以直接把CUDA代码迁过来跑。这不是"完全替代",但大大降低了迁移门槛。生态的飞轮,从这一环开始加速。

第三,灵衢(UnifiedBus)互联协议。单卡打不过就拼系统。灵衢支撑8192卡乃至15488卡的超节点互联,这是华为"用架构补制程"思路的集大成者。

到2026年4月DeepSeek V4发布时,V4已经原生跑在昇腾950PR上。徐直军在HC大会上的那句"算力过去是、未来也将继续是人工智能的关键,更是中国人工智能的关键",放到这个节点看,不再像是一句口号。

三、SemiAnalysis的Trace级拆解:950DT到底强在哪

回到SemiAnalysis那份报告。他们拆解的重点不在纸面参数,而在实际推理链路的执行效率

3.1 两个版本,两种打法

昇腾950系列实际上有两颗芯片:950PR和950DT。它们的计算核心相同,但内存系统截然不同。

950PR搭载HiBL 1.0内存,128GB容量,1.6TB/s带宽。主要面向推理的Prefill(预填充)阶段和推荐系统业务。本质是"降本版"——用自研内存替代昂贵的HBM3e方案,在不牺牲太多性能的前提下,把硬件采购成本压到H20的四分之一。

950DT才是真正的性能怪兽。它搭载HiZQ 2.0内存系统,容量拉到144GB,带宽翻到4TB/s,互联带宽2TB/s。这个配置是专门为推理的Decode(逐token生成)阶段和模型训练场景设计的。

关键差异在于:Decode阶段是内存带宽敏感型任务。大模型每生成一个token,都要把整个模型权重从内存里过一遍。如果内存带宽跟不上,算力再强也是空转。950DT的4TB/s带宽,让它在这个瓶颈环节上可以和英伟达B200掰手腕。

3.2 协同设计:芯片和模型一起打磨

SemiAnalysis拆解中最重要的发现之一,是昇腾950DT和DeepSeek V4之间不是"先有模型,再适配芯片"的传统路径,而是协同设计

这意味着DeepSeek在开发V4的过程中,华为的芯片团队就深度参与进来了。模型的推理路径、硬件执行方式、CANN软件栈的算子优化——这三层是在同一张桌子上一起打磨的。

具体来说体现在三个层面:

算子层:DeepSeek V4的MoE(混合专家)架构有1万亿参数,每次推理只激活约370亿。MoE模型的核心瓶颈是Expert Routing(专家路由)和All-to-All通信。SemiAnalysis发现,华为为V4专门定制了稀疏矩阵乘法和Expert Gather指令,把MoE路由延迟降低了40%以上。

内存层:V4推理时,全部专家权重待在HBM里,每次推理只把激活的专家加载到计算单元。950DT的144GB大容量HBM让所有专家权重能常驻内存,避免了昂贵的weight swapping操作。4TB/s的带宽则保证了专家切换的吞吐。

通信层:在多卡推理场景下,Tensor Parallelism的通信开销往往是性能杀手。灵衢2.0的2TB/s互联带宽配合华为定制的All-Reduce通信原语,让跨卡通信不再成为瓶颈。

3.3 75%降价是怎么算出来的

SemiAnalysis的测算逻辑大致如下:

  1. 单卡推理吞吐量:950DT在运行DeepSeek V4 Decode任务时,得益于4TB/s内存带宽和定制算子,单卡吞吐量达到H100的约85%-90%。

  2. 但卡的成本是H100的约25%。华为自研HBM和国内供应链的成本结构,让950DT的硬件单价远低于受管制的H100/H200。

  3. 折算到每百万token的推理成本:大约是当前DeepSeek Pro定价的25%。注意这是硬件侧的潜力,实际定价还涉及DeepSeek的商业策略。但即使打个折,降价50%以上几乎是板上钉钉的。

更重要的是,这个降价空间不是靠"赔本赚吆喝"撑起来的,而是硬件成本结构的变化。HBM3e/HBM4是英伟达B200中最贵的组件之一,而华为用自研HiZQ 2.0替代了这个成本黑洞。一旦950DT量产出货稳定,这个成本优势会持续放大。

四、字节锁单背后:推理定价权正在转移

拆解报告引发的市场反应,比报告本身更有意思。

4.1 从"试试看"到"抢产能"

2026年4月DeepSeek V4发布时,阿里、字节、腾讯已经下了数十万颗昇腾950PR的订单。那是V4刚出来、大家还在验证的阶段。

到6月SemiAnalysis报告出来后,情况完全变了。

据多个信源交叉验证,字节跳动已经追加了950DT的锁单,总量远超此前950PR的订单。阿里的订单也在加速推进。腾讯虽然动作稍慢,但也没有缺席。

这背后的逻辑很清楚:谁先拿到足量的950DT,谁就能在推理服务市场拿到成本优势。降75%的推理成本,对于字节这样的"模型调用大户"——旗下豆包、扣子、飞书AI等产品对推理的消耗量以每天数十亿token计——可以直接转化为每年数十亿人民币的成本节约。

4.2 英伟达的"中国焦虑"

英伟达并非没有应对。H20是专门为中国市场定制的合规版GPU,性能被精确地卡在出口管制的红线之下。B200更是不可能直接卖给中国。

但昇腾950DT的出现,让"H20够用"的假设站不住脚了。

如果DeepSeek V4跑在950DT上的推理成本只有跑在H20上的三分之一甚至四分之一,那云计算厂商没有理由继续大比例采购H20。这不只是一个"国产替代"的故事,而是纯经济学的决策。

路透社4月份的报道已经提到,昇腾950系列芯片的订单逼近75万颗。这个数字放在2025年,是几乎不可想象的。

4.3 更深层的信号:推理定价权

过去两年,AI推理的定价权牢牢掌握在英伟达手里。虽然DeepSeek一直在压价,但它的成本底取决于它用什么芯片。

如果DeepSeek的成本底被英伟达的芯片定价锁死,那它的"价格屠夫"策略就只能打到某个程度。

昇腾950DT改变了这个前提。当DeepSeek的核心推理链路可以完全脱离CUDA生态、跑在自主可控且成本结构完全不同的硬件上时,推理定价权的天平开始倾斜

这不是说英伟达要输了。英伟达在高端训练市场、全球生态、软件成熟度上的优势依然巨大。但在中国市场的推理场景里,昇腾+DeepSeek的组合正在建立一套平行体系。这套体系不需要在每一个维度上都赢,只需要在"性价比"这一个维度上形成压倒性优势,就足以改变格局。

五、影响与启发:国产AI算力的大考才刚刚开始

SemiAnalysis的拆解报告像一面镜子,照出了国产AI芯片的成绩和短板。

成绩:路线对了

华为选择的"系统级创新代替单芯片堆料"路线,在制裁背景下几乎是唯一可行的道路。灵衢互联、自研HBM、CANN Next、超节点架构——这套组合拳的逻辑是清晰的:既然单卡制程受限,就让千卡万卡像一台机器一样工作。

DeepSeek V4的成功适配,是对这条路线的阶段性验证。它证明了一件事:不需要台积电3nm,也能造出支撑顶级大模型推理的AI芯片方案。

挑战:生态和量产

但几个硬骨头还在前面:

量产爬坡。60万颗910C、目标是160万片的总产量——华为2026年的产能计划非常激进。中芯国际7nm的良率和产能能不能扛住?自研HBM的量产能不能跟上?这是比芯片设计更现实的挑战。

软件生态的护城河。CANN Next兼容CUDA是好事,但兼容不等于替代。真正要让开发者从CUDA迁移到CANN,需要的不只是API兼容,而是文档、工具链、社区、第三方库的全套体验。CUDA花了15年构建的护城河,不是一年两年能填平的。

训练的缺失。目前DeepSeek V4的训练仍部分依赖英伟达集群,昇腾主要扛起了推理。要实现"训练+推理全链路国产化",还有不少坑要踩。

启发:从一个芯片到一个时代

昇腾950DT的故事,本质上不是一个芯片的故事。它是中国AI产业在极端外部约束下,被迫走出的一条自主之路。

这条路不好走。2023年DeepSeek用昇腾训练时摔过的跟头,2024年华为工程师为精度对齐熬过的夜,都是这条路上的代价。

但现在看,这些代价正在转化成壁垒。当昇腾+DeepSeek的组合形成闭环,那些还在等待"制裁解除后继续用英伟达"的企业,可能会发现自己已经错失了窗口期。

对开发者来说,最实际的建议可能是:开始认真学CANN。不是因为"爱国",而是因为未来几年,你在中国做AI infra、做大模型部署、做推理优化,昇腾将是一个绕不开的选项。早学晚学都是学,早学有红利。

对于整个行业,SemiAnalysis的这份拆解报告传递了一个清晰的信号:AI芯片的地缘政治游戏规则,正在被改写。主角不再只有一个。


参考来源:SemiAnalysis Ascend 950DT Trace Analysis(2026.06.12)、TechWeb报道(2026.06.08)、EET-China DeepSeek V4适配昇腾报道(2026.04.09)、华为全联接大会2025徐直军演讲

http://www.gsyq.cn/news/1529118.html

相关文章:

  • ImageGlass图像浏览器:支持90+格式的现代开源解决方案
  • 2026无锡江诗丹顿回收测评 7家门店对比 当场打款推荐 - 开心测评
  • 好用的openclaw哪个公司好
  • NLP语义校准协议:从分词失真到可解释决策的工程实践
  • 白云创业心得|2026 工贸企业经营,专业财税合规比低价代账更划算 - 资讯综合站
  • Nothing Ever Happens:揭秘那个“永远做空”的预测市场套利机器人
  • 避坑指南:dlnm包做分布滞后模型时,你的交叉基矩阵可能设错了(R语言实战反思)
  • ArchivePasswordTestTool:如何用7zip引擎快速找回遗忘的压缩包密码
  • 抖音批量下载工具深度解析:如何高效获取无水印视频与直播内容
  • eTSEC接收缓冲区描述符与接口模式配置实战解析
  • 2026 问卷工具 TOP10:从免费做问卷到 AI 智能分析全推荐 - 企业数字化Rock
  • 郑大网安复试机试怎么准备?我用本科期末题库和实验报告帮你划重点
  • Conda报错‘Malformed version string ‘~’‘别慌,手把手教你清理国内源配置文件(附完整.condarc模板)
  • 嵌入式DMA控制器深度解析:从TCD寄存器到动态编程实战
  • 专业模组管理解决方案:KKManager高效管理Illusion游戏模组与插件
  • 2026 哈尔滨品牌首饰梵克雅宝回收深度测评!添价收黄金奢侈品回收实力领跑 - 薛定谔的梨花猫
  • 如何彻底告别网盘限速:九大主流网盘直链解析工具完整指南
  • PXS20微控制器ADC、CTU与CRC模块协同设计解析
  • C语言宽字符编程:wchar.h核心函数与国际化文本处理实战
  • 大连黄金回收哪家最正规?实测验证顶级机构,全程透明、当场全款 - 奢侈品回收评测
  • RapidIO地址转换与消息单元寄存器详解:以MSC8251为例
  • 抖音直播数据抓取终极指南:5分钟构建实时监控系统
  • 深入解析PXS20微控制器的STCU自测试与SEMA4多核同步机制
  • 3步彻底解决DLL缺失问题:VisualCppRedist AIO完全指南
  • 免费MIDI编辑神器:MidiEditor快速上手指南
  • C语言数值计算精要:fenv.h、float.h与inttypes.h实战指南
  • 嵌入式USB设备开发实战:从协议栈到API架构详解
  • 2026 国内环保除尘设备厂家实测测评 工业企业采购选型指南 - 品研笔录
  • 2026广东深圳源头工厂:专业接触式位移传感器选购攻略 - 变量人生001
  • HoRain云--React 组件状态(State)