当前位置: 首页 > news >正文

CANN-昇腾NPU-Speculative-Decoding-昇腾NPU上怎么用小模型加速大模型推理

Speculative Decoding 用小模型快速生成候选 token大模型并行验证正确的保留、错误的重新生成。在昇腾NPU上这个方法有天然优势——NPU 的 batch GEMM 对验证阶段的多 token 并行计算很高效。原理1. Draft Model小模型自回归生成 K 个候选 token 2. Target Model大模型一次 forward 验证 K 个 token 3. 找到第一个错误的 token保留之前正确的 4. 从错误位置重新开始 例子K4 Draft 生成A B C D Target 验证A ✓ B ✓ C ✗ D ✗ 接受 A B从 C 开始重新生成关键Target Model 的验证是并行的——一次 forward 处理 K 个 token比自回归快 K 倍。但只有正确率够高 60%总体才比自回归快。昇腾NPU上的实现fromatbimportLLM,SpeculativeConfig# Draft Model: Llama2-7Bdraft_modelLLM(meta-llama/Llama-2-7b-hf,devicenpu:0)# Target Model: Llama2-70B, 8 卡 TPtarget_modelLLM(meta-llama/Llama-2-70b-hf,devicenpu:0,1,2,3,4,5,6,7,tensor_parallel_size8,speculative_configSpeculativeConfig(draft_modeldraft_model,num_speculative_tokens4,# 每次猜 4 个 token))outputtarget_model.generate(Hello,max_new_tokens100)ATB 内部自动编排 draft 和 target 的交替执行。为什么昇腾NPU适合 Speculative DecodingTarget Model 验证 K 个 token 时等效 batchK 的 prefill。Atlas 800I A2 上 batch4 的 GEMM 利用率约 25%而 batch1decode只有 7%。自回归每步 batch1GEMM 利用率 7% Speculative每步 batch4GEMM 利用率 25% 验证速度提升 25%/7% ≈ 3.5×NPU 在大 batch 下更高效Speculative Decoding 正好把单 token decode 变成了多 token prefill。接受率和加速比加速比取决于 draft model 的接受率。接受率 draft 生成正确 token 的比例。Draft 接受率K4 加速比K8 加速比90%2.8×4.2×80%2.2×3.0×70%1.7×2.1×60%1.3×1.4×接受率低于 60% 时加速不明显draft 的开销开始抵消收益。如何提高接受率方法 1用同架构的小模型。Llama2-7B 做 Llama2-70B 的 draft model 比用不同架构的小模型接受率高 10-15%。因为同架构模型的输出分布更接近。方法 2增加 Draft Model 的温度。Draft Model 用略高的 Temperature比如 1.1生成让候选更多样化覆盖 Target Model 可能选择的 token。方法 3动态 K 值。不固定 K4根据最近几步的接受率动态调整。接受率高时增大 K低时减小。显存开销Draft Model 的权重也要放在 NPU 显存里。Llama2-7B 作为 draft model 需要额外 14GB。8 卡 Atlas 800I A2 × 64GB 512GB 总显存Target Model70B140GBDraft Model7B14GBKV Cache buffer剩余空间512 - 140 - 14 358GB 给 KV Cache。如果不做 Speculative Decoding504GB 给 KV Cache。显存少了 29%但吞吐可能提升 2-3×。Speculative Decoding 在昇腾NPU上的收益特别明显——把低利用率的 decode 变成高利用率的 batch prefill。前提是 draft model 的接受率 70%。同架构小模型 动态 K 值是最佳实践。仓库在这里https://atomgit.com/cann/ATB
http://www.gsyq.cn/news/1347125.html

相关文章:

  • 2026靠谱钛翅片管厂家:钛换热管/钛冷凝管定制供应商推荐精选 - 栗子测评
  • OpenRGB终极指南:免费统一控制所有RGB设备的完整解决方案
  • python老人健康信息管理系统
  • 陕西实验台正规厂家7项重要硬指标 核心要点梳理 - 资讯焦点
  • 2026年,这些知名的铸铁闸门厂商你知道几个 - 资讯速览
  • 3分钟掌握MultiHighlight:让代码阅读效率提升300%的智能高亮插件
  • Windows 11终极清理指南:使用Win11Debloat免费提升系统性能
  • 内蒙古螺纹钢、H 型钢、不锈钢优质服务商整理 区域采购参考指南 - 深度智识库
  • RunPod H100集群实战:64卡AI训练的物理级优化与成本重构
  • 2021年AI落地临界点:视觉生成、代码补全与语音识别的工程化逻辑
  • math 7 [parallel lines] 2026.05.22
  • Unlock Music终极指南:5分钟掌握音乐格式转换的隐藏技巧
  • Source Sans 3技术解决方案:现代化用户界面字体系统架构与性能优化实践
  • AI问答改变消费决策 西安泰川之星助本地商家抢占智能推荐新入口 - 资讯速览
  • labview中,下拉菜单的禁用
  • 通过curl命令测试与调试大模型API接入的完整指南
  • 机械工程论文降AI工具免费推荐:2026年机械工程毕业论文AIGC超标4.8元一次过知网完整指南
  • Java应用CPU飙升到900%?这套排查套路让你10分钟定位根因
  • 云南省寄快递怎么寄最便宜?全国靠谱快递寄件平台推荐 - 时讯资讯
  • 强烈推荐!这个 Skill 画架构图质量超高,一句话出图
  • AI写论文大比拼!4款AI论文生成工具,哪款最适合写职称论文?
  • 长沙专业GEO优化服务商排行:合规实效优先选型指南 - 奔跑123
  • 3D-LLM:面向可制造性的三维语言模型技术解析
  • 【Clickhouse从入门到精通】第60篇:ClickHouse生态总结与未来展望
  • SteamDeck_rEFInd:Steam Deck双系统引导管理终极解决方案
  • 一键安装Apple USB网络共享驱动:Windows系统终极解决方案
  • 【通俗易懂!Spring四大核心注解源码解读:@Configuration、@ComponentScan、@Import、@EnableXXX实战】
  • 解锁PowerToys中文版:让Windows效率工具真正说中文的完整指南
  • 终极指南:如何用FModel深度探索虚幻引擎游戏资源
  • 国有企业及中央企业如何提升科技创新与成果转化能力?