当前位置：首页 > news >正文

小米新开源 MiMo-V2-Flash：稀疏注意力+强化学习超越DeepSeek-V3.2？

news 2026/6/10 16:38:24

摘要

在追求 AGI 的道路上，如何在保持高性能推理能力的同时，极致压缩计算成本与显存占用？小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数（激活参数仅 15B）的 MoE 模型，通过混合滑动窗口注意力（Hybrid SWA）、轻量级多 Token 预测（MTP）以及多教师在线蒸馏（MOPD），在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。

1. 引言：突破“不可能三角”？

长上下文大语言模型（LLM）长期面临一个“不可能三角”：长窗口（Long Context）、**高智能（High Intelligence）与低延迟（Low Latency）**往往难以兼得。全注意力机制（Full Attention）的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰，而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于：

架构侧：利用带“可学习 Sink Bias”的滑动窗口注意力，将 KV Cache 和计算量降低 6 倍。
推理侧：利用 MTP 模块实现无损投机采样，大幅提升 Decoding 速度。
训练侧：首创 MOPD 范式，解决了强化学习（RL）中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计：极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构，但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈，MiMo-V2-Flash 并没有选择完全的线性 Attention，而是采用了一种5:1 的混合策略。

结构：每 6 层为一个 Block，其中前 5 层使用滑动窗口注意力（Sliding Window Attention, SWA），第 6 层使用全局注意力（Global Attention, GA）。
参数：滑动窗口大小W=128W=128W=128。这是一个极小的窗口（相比于常见的 4K 或 8K），意味着绝大多数层只关注极局部的上下文。

核心创新：可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后，长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题，而 MiMo-V2-Flash 选择了一种更轻量的方案：Learnable Attention Sink Bias。

在 SWA 层中，模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sink∈R，用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时，将注意力权重“倾泻”到 Sink 上，从而保留全局语义的聚合能力。

数学表达：
对于 Tokeniii和jjj，注意力 Logit 计算如下：
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

http://www.gsyq.cn/news/118340.html

相关文章：

Electron API演示应用中文版：从入门到精通的完整指南

AI驱动的一键式文档转换工具：让PDF转Markdown变得如此简单

day26函数专题1

TimelineJS时间轴神器：零基础打造零食文化演变史

浏览器密码管理扩展插件：Browserpass

手把手教你OpenWrt刷机：让老旧路由器变身网络神器

K8S-namespace资源对象

SegFormer：使用Transformer进行语义分割，简单而高效的设计-k学长深度学习专栏

18、量子算法在期权定价中的应用

如何避开“水货”老师？一份基于数据的软考高项（2026）名师综合评估指南

Free Sidecar终极指南：5分钟解锁macOS多屏扩展功能

机器人视觉语言模型openpi：让机器人看懂世界并执行任务

MaxScript 实现多边形层级切换按钮

从登录测试谈测试用例

Cakebrew：macOS包管理的终极图形界面指南

国巨薄膜精密电阻RT0805系列的噪声水平及适合的应用

NanoPi R5S性能实战：从零配置到千兆加速全攻略

如何快速美化macOS光标：Mousecape新手完整教程

基于jmeter的性能全流程测试

macOS终极解决方案：Electronic WeChat通知管理完全指南

企业级构建系统性能优化实战：从Bazel分布式架构到高效团队协作

2026大专生找工作难吗？Java就业环境变差吗?

SenseVoice语音识别技术：突破性多任务音频理解解决方案

OctoSQL查询计划分析终极指南：从入门到性能优化实战

Obsidian视觉定制完全指南：从功能增强到界面美化

WAN2.2-14B-Rapid-AllInOne：重新定义AI视频创作的效率革命

Orleans分布式追踪终极指南：Jaeger与Zipkin深度对比分析

KTO： Kahneman-Tversky优化

3分钟极速优化：彻底告别游戏卡顿的终极方案

OpCore Simplify 终极指南：3分钟自动生成完美黑苹果EFI配置