当前位置: 首页 > news >正文

小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

摘要

在追求 AGI 的道路上,如何在保持高性能推理能力的同时,极致压缩计算成本与显存占用?小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数(激活参数仅 15B)的 MoE 模型,通过混合滑动窗口注意力(Hybrid SWA)轻量级多 Token 预测(MTP)以及多教师在线蒸馏(MOPD),在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。


1. 引言:突破“不可能三角”?

长上下文大语言模型(LLM)长期面临一个“不可能三角”:长窗口(Long Context)、**高智能(High Intelligence)低延迟(Low Latency)**往往难以兼得。全注意力机制(Full Attention)的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰,而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于:

  1. 架构侧:利用带“可学习 Sink Bias”的滑动窗口注意力,将 KV Cache 和计算量降低 6 倍。
  2. 推理侧:利用 MTP 模块实现无损投机采样,大幅提升 Decoding 速度。
  3. 训练侧:首创 MOPD 范式,解决了强化学习(RL)中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计:极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构,但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈,MiMo-V2-Flash 并没有选择完全的线性 Attention,而是采用了一种5:1 的混合策略

  • 结构:每 6 层为一个 Block,其中前 5 层使用滑动窗口注意力(Sliding Window Attention, SWA),第 6 层使用全局注意力(Global Attention, GA)。
  • 参数:滑动窗口大小W=128W=128W=128。这是一个极小的窗口(相比于常见的 4K 或 8K),意味着绝大多数层只关注极局部的上下文。
核心创新:可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后,长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题,而 MiMo-V2-Flash 选择了一种更轻量的方案:Learnable Attention Sink Bias

在 SWA 层中,模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sinkR,用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时,将注意力权重“倾泻”到 Sink 上,从而保留全局语义的聚合能力。

数学表达
对于 Tokeniiijjj,注意力 Logit 计算如下:
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

http://www.gsyq.cn/news/118340.html

相关文章:

  • Electron API演示应用中文版:从入门到精通的完整指南
  • AI驱动的一键式文档转换工具:让PDF转Markdown变得如此简单
  • day26函数专题1
  • TimelineJS时间轴神器:零基础打造零食文化演变史
  • 浏览器密码管理扩展插件:Browserpass
  • 手把手教你OpenWrt刷机:让老旧路由器变身网络神器
  • K8S-namespace资源对象
  • SegFormer:使用Transformer进行语义分割,简单而高效的设计-k学长深度学习专栏
  • 18、量子算法在期权定价中的应用
  • 如何避开“水货”老师?一份基于数据的软考高项(2026)名师综合评估指南
  • Free Sidecar终极指南:5分钟解锁macOS多屏扩展功能
  • 机器人视觉语言模型openpi:让机器人看懂世界并执行任务
  • MaxScript 实现多边形层级切换按钮
  • 从登录测试谈测试用例
  • Cakebrew:macOS包管理的终极图形界面指南
  • 国巨薄膜精密电阻RT0805系列的噪声水平及适合的应用
  • NanoPi R5S性能实战:从零配置到千兆加速全攻略
  • 如何快速美化macOS光标:Mousecape新手完整教程
  • 基于jmeter的性能全流程测试
  • macOS终极解决方案:Electronic WeChat通知管理完全指南
  • 企业级构建系统性能优化实战:从Bazel分布式架构到高效团队协作
  • 2026大专生找工作难吗?Java就业环境变差吗?
  • SenseVoice语音识别技术:突破性多任务音频理解解决方案
  • OctoSQL查询计划分析终极指南:从入门到性能优化实战
  • Obsidian视觉定制完全指南:从功能增强到界面美化
  • WAN2.2-14B-Rapid-AllInOne:重新定义AI视频创作的效率革命
  • Orleans分布式追踪终极指南:Jaeger与Zipkin深度对比分析
  • KTO: Kahneman-Tversky优化
  • 3分钟极速优化:彻底告别游戏卡顿的终极方案
  • OpCore Simplify 终极指南:3分钟自动生成完美黑苹果EFI配置