当前位置: 首页 > news >正文

CANN8.5-ops-transformer更新了什么昇腾NPU算子

CANN 8.5 在 2024 Q4 发布ops-transformer 仓库跟进了三个重要更新FlashAttention V2 的反向传播融合、MC2 通算融合的多卡拓扑适配、以及新增的 GroupedAttention 算子。如果你已经用 CANN 8.0 在跑大模型推理这篇帮你判断要不要升级。FlashAttention V2反向传播终于融合了CANN 8.0 的 FlashAttention 只融合了前向传播。训练场景下反向传播还是要拆成三个独立 kerneldQ、dK、dV中间结果落显存。CANN 8.5 把反向传播也融合进去了——一次 kernel 完成 dQ/dK/dV 的计算。训练场景的收益配置训练吞吐 (tokens/s/p)显存占用CANN 8.0 FlashAttention V11,82056 GBCANN 8.5 FlashAttention V22,41044 GB训练吞吐提升 32%显存省了 21%。显存省下来意味着可以开更大的 batch 或更长的序列。前向推理不受影响——如果你只做推理这个更新对你没用不用特意升级。MC2 通算融合多卡拓扑适配CANN 8.0 的 MC2 只支持同一台服务器内的卡间通信。8 卡的 Atlas 800I A2 没问题但如果你要用两台服务器做 16 卡的 MoE 训练跨机 All-to-All 通信走的是 RoCEMC2 没法把它和计算重叠。CANN 8.5 加了 RoCE 通算融合支持。MC2 可以同时管理 HCCL 的卡间通信和 RoCE 的跨机通信让两者都跟计算流水线重叠。实测数据Mixtral 8x7B 的 16 卡训练配置通信占比吞吐 (tokens/s/p)CANN 8.0跨机不通算融合42%680CANN 8.5跨机通算融合23%1,050通信占比从 42% 降到 23%跨机场景的 MC2 终于能用了。新增GroupedAttention 算子Grouped-Query AttentionGQA在 Llama2、Mistral 等模型里广泛使用。CANN 8.0 需要把 GQA 展开 MHA 来跑CANN 8.5 新增了原生 GQA 支持importtorch_npu# GQA: num_q_heads32, num_kv_heads8qtorch.randn(1,32,4096,128,devicenpu,dtypetorch.float16)ktorch.randn(1,8,4096,128,devicenpu,dtypetorch.float16)vtorch.randn(1,8,4096,128,devicenpu,dtypetorch.float16)# CANN 8.5 直接支持 KV heads Q headsouttorch_npu.npu.flash_attention(q,k,v)CANN 8.0 要手动把 K/V repeat 到 32 个 head显存和计算都浪费。原生 GQA 省掉了 repeat 操作显存占用降低 75%延迟降 15-20%。升级建议场景是否建议升级到 8.5只做推理单机不急8.0 够用推理 GQA 模型建议升级原生 GQA 收益大训练单机建议升级FlashAttention V2 反向融合省显存训练多机 MoE必须升级跨机 MC2 是刚需升级方式# 更新 CANN toolkit./Ascend-cann-toolkit_8.5.run--install# 重新编译 ops-transformercdops-transformergitpullbashbuild.sh# 更新 torch_npupipinstalltorch_npu2.3.0# CANN 8.5 对应版本兼容性注意CANN 8.5 的 FlashAttention V2 API 跟 8.0 的 V1 有个不兼容变更npu.flash_attention的scale参数从位置参数改成了关键字参数。如果你之前的代码是flash_attention(q, k, v, 1.0/math.sqrt(dim))需要改成flash_attention(q, k, v, scale1.0/math.sqrt(dim))。不改的话会报参数类型错误。如果你的 MoE 训练要上多机CANN 8.5 的跨机 MC2 是硬需求不升级就是浪费卡。单机推理用户可以观望等下一个大版本再看。仓库在这里https://atomgit.com/cann/ops-transformer
http://www.gsyq.cn/news/1354564.html

相关文章:

  • 2026有实力的婚礼宴会大厅推荐,诺丁山口碑好 - 工业推荐榜
  • 2026大埔县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • [具身智能-850]:智能体是一个节点吗?智能体与大模型之间通过什么协议通信?大模型服务是一个节点吗?
  • 如何高效使用HsMod插件:提升炉石传说游戏体验的完整方案
  • 我开源了一个AI智囊团:200+专家实时群聊,自动拆解需求组建团队,这可能是目前最实用的AI协作平台
  • SCP-Firmware缓冲区溢出漏洞(CVE-2024-9413)分析与防护
  • 第三篇:必知必会的5个核心斜杠命令(/help、/compact、/clear、/cost、/exit)
  • 解析IFC:BIM领域的“通用语言”,好而不完美的开放标准
  • 2026大冶县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • EdgeRemover终极指南:3种简单方法彻底卸载Windows的Microsoft Edge浏览器
  • 如何高效管理Windows右键菜单:专业工具完全指南
  • 突破语言壁垒:XUnity自动翻译器让全球游戏触手可及
  • 抖音下载神器:三步速成法,轻松批量下载无水印视频
  • 2026大邑县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • HarmonyOS 6 ArkTS 自定义布局:判断子组件是否参与布局计算使用文档
  • Navicat16/17 Mac版试用期终极重置指南:三种自动化方案实现无限免费使用
  • 从零打造可落地的直流电机 PID 驱动系统 (八):蓝牙差分 OTA 升级,传输速度提升 10 倍以上
  • Proxmox VE ARM64实战:在树莓派和ARM服务器上部署企业级虚拟化平台
  • 写给前端的 CANN-asnumpy:昇腾原生NumPy到底是啥?
  • 【Qt学习】信号槽
  • 2026大竹县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • C++图文并茂轻松进阶面向对象
  • STM32CubeMX与Keil RTX中断优先级冲突解决方案
  • 义乌GEO优化公司哪家靠谱?拒绝转包套路,4个维度精准筛选优质服务商(2026年5月最新) - GEO排行榜
  • 2026大足县黄金回收避坑指南;闲置黄金变现;认准铭润金银回收,诚信靠谱 - 亦辰小黄鸭
  • DownKyi完整指南:如何轻松下载B站8K超高清视频的终极教程
  • Topit 技术深度:macOS窗口层级管理的现代SwiftUI实现与架构解析
  • 嘉兴黄金回收门店避坑指南 六家靠谱店铺推荐 优选长悦 - 专业黄金回收
  • 微信PC端二维码刷新机制深度解析:心跳、状态与逆向定位
  • ncmdumpGUI:一键解密网易云音乐NCM文件,让音乐重获自由