当前位置：首页 > news >正文

MiniMax M3开源：稀疏注意力架构重塑长上下文游戏规则

news 2026/6/14 14:11:25

6月1日，MiniMax正式发布第三代大模型MiniMax M3。这是继M2.7之后的新一代旗舰，也是国内首个同时具备前沿编程能力、百万级超长上下文、原生多模态三项能力组合的开源模型，6月12日MiniMax M3已经正式开源。

从全注意力到稀疏注意力：MSA架构登场

M3的核心变化在于架构。M2系列采用的是传统的全注意力机制，而M3换装了自研的MiniMax Sparse Attention（MSA）稀疏注意力架构。

这意味着什么？传统Transformer在处理长序列时，每个token都要和之前的所有token计算相似度，计算量随序列长度呈平方级增长。当上下文扩展到100万token时，传统的全注意力方案在工程上几乎无法实用——要么速度太慢，要么成本太高。

MSA的设计思路是：先快速筛选出值得重点关注的KV块，然后只对这些块执行精确计算。这就像考试前不是把整本教材从头读到尾，而是先看目录、错题本和重点章节，有针对性地复习。

MSA稀疏注意力架构工作原理

实际效果上，MiniMax官方披露：在100万上下文规模下，M3单token计算量仅为上代模型的约1/20，Prefill阶段提速超过9倍，Decode阶段提速超过15倍。更关键的是，这些加速并没有以牺牲能力为代价——MSA在对照实验中与全注意力能力基本打平。

在底层推理算子层面，MiniMax也做了重新设计。KV块为外层来聚合命中的query，每块只读一次、访存连续，计算访存比显著优于常规方法。官方称相关性能较主流开源方案提升4倍以上。

编程与Agent：能动手干活的新水平

M3在编程能力上的定位是"代码直接可交付"，而不是"能跑但需要人改"。在衡量真实软件工程能力的SWE-Bench Pro评测中，M3得分59.0%，超过GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。

Terminal Bench 2.1中，M3拿到66.0分，领先Opus 4.7的64.1分和GPT-5.5的58.6分。在BrowseComp智能体评测中，M3以83.5分超越Opus 4.7的79.3分。

主要编程与Agent评测基准对比

官方做了一个很有说服力的实测：给M3一篇ICLR 2025杰出论文《Learning Dynamics of LLM Finetuning》，要求其独立完成论文复现。M3连续运行接近12小时，全程无人干预，自主产出18次commit和23张实验图表，成功跑通核心实验，验证了论文中提出的方法。

这个任务背后需要的能力组合是多方面的：多模态理解论文图表公式、1M长上下文让论文+代码+实验日志一次性进窗口、强编程和Agent能力驱动长线程执行。三项能力协同，M3全部做到。

另一个更极限的测试是：在NVIDIA Hopper架构GPU上，让M3自主优化FP8矩阵乘Kernel。起点只是一份任务描述、一个评估脚本和一个跑不起来的Triton骨架，没有任何参考实现。M3连续执行约24小时，进行了147次benchmark提交、1959次工具调用，最终将硬件峰值利用率从7.6%提升至71.3%，实现9.4倍加速。最优解出现在第145次提交——中间经历多个性能平台期，模型没有放弃，而是继续换方向尝试。

作为对比，其余参测模型大多在前30次提交内就不再进展并退出。