MiniMax M3开源:稀疏注意力架构重塑长上下文游戏规则
6月1日,MiniMax正式发布第三代大模型MiniMax M3。这是继M2.7之后的新一代旗舰,也是国内首个同时具备前沿编程能力、百万级超长上下文、原生多模态三项能力组合的开源模型,6月12日MiniMax M3已经正式开源。
从全注意力到稀疏注意力:MSA架构登场
M3的核心变化在于架构。M2系列采用的是传统的全注意力机制,而M3换装了自研的MiniMax Sparse Attention(MSA)稀疏注意力架构。
这意味着什么?传统Transformer在处理长序列时,每个token都要和之前的所有token计算相似度,计算量随序列长度呈平方级增长。当上下文扩展到100万token时,传统的全注意力方案在工程上几乎无法实用——要么速度太慢,要么成本太高。
MSA的设计思路是:先快速筛选出值得重点关注的KV块,然后只对这些块执行精确计算。这就像考试前不是把整本教材从头读到尾,而是先看目录、错题本和重点章节,有针对性地复习。
MSA稀疏注意力架构工作原理
实际效果上,MiniMax官方披露:在100万上下文规模下,M3单token计算量仅为上代模型的约1/20,Prefill阶段提速超过9倍,Decode阶段提速超过15倍。更关键的是,这些加速并没有以牺牲能力为代价——MSA在对照实验中与全注意力能力基本打平。
在底层推理算子层面,MiniMax也做了重新设计。KV块为外层来聚合命中的query,每块只读一次、访存连续,计算访存比显著优于常规方法。官方称相关性能较主流开源方案提升4倍以上。
编程与Agent:能动手干活的新水平
M3在编程能力上的定位是"代码直接可交付",而不是"能跑但需要人改"。在衡量真实软件工程能力的SWE-Bench Pro评测中,M3得分59.0%,超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。
Terminal Bench 2.1中,M3拿到66.0分,领先Opus 4.7的64.1分和GPT-5.5的58.6分。在BrowseComp智能体评测中,M3以83.5分超越Opus 4.7的79.3分。
主要编程与Agent评测基准对比
官方做了一个很有说服力的实测:给M3一篇ICLR 2025杰出论文《Learning Dynamics of LLM Finetuning》,要求其独立完成论文复现。M3连续运行接近12小时,全程无人干预,自主产出18次commit和23张实验图表,成功跑通核心实验,验证了论文中提出的方法。
这个任务背后需要的能力组合是多方面的:多模态理解论文图表公式、1M长上下文让论文+代码+实验日志一次性进窗口、强编程和Agent能力驱动长线程执行。三项能力协同,M3全部做到。
另一个更极限的测试是:在NVIDIA Hopper架构GPU上,让M3自主优化FP8矩阵乘Kernel。起点只是一份任务描述、一个评估脚本和一个跑不起来的Triton骨架,没有任何参考实现。M3连续执行约24小时,进行了147次benchmark提交、1959次工具调用,最终将硬件峰值利用率从7.6%提升至71.3%,实现9.4倍加速。最优解出现在第145次提交——中间经历多个性能平台期,模型没有放弃,而是继续换方向尝试。
作为对比,其余参测模型大多在前30次提交内就不再进展并退出。
原生多模态:从第零步开始的视觉对齐
M3的多模态不是"文本模型外挂图像编码器"的拼接方案,而是从第零步开始就进行多模态混合训练。
MiniMax重构了整套数据管线,将预训练数据规模扩充至百T量级。这使得文本和视觉语义空间从训练起点就高度对齐。模型可以直接理解表格截图、PDF扫描件、短视频帧,而不需要额外的视觉编码器模块。
更重要的是,M3具备电脑桌面操作能力(Computer Use)。你可以让它打开本地软件、跨应用操作——比如"帮我打开ERP客户端,按照这份Excel批量录入发票信息"这样的跨系统任务。
在OmniDocBench多模态测试集上,M3得分超过Gemini 3.1 Pro。在SVG-Bench综合评测中,M3以63.7分超越Opus 4.7的62.3分。
MiniMax M3三项核心能力
开源与定价
MiniMax M3已在HuggingFace和GitHub上完成开源,支持私有集群部署和微调。这将使M3成为国内首个同时具备前沿编程、百万上下文、原生多模态三项能力组合的开源模型。
512K上下文版本永久五折:输入2.1元/百万tokens,输出8.4元/百万tokens,缓存读取0.42元/百万tokens。作为参考,Claude Opus 4.6的输入定价约为15美元/百万tokens,输出高达75美元。
M3的发布验证了一个趋势:大模型竞争正在从"参数规模竞赛"转向"效率与实用性竞赛"。当上下文窗口扩展到百万级,当编程和Agent能力达到前沿水平,当多模态理解从外挂模块变成原生能力——这些能力组合在一起,意味着模型正在从"会聊天"进化到"能干活"。
2026年6月12日MiniMax M3已经正式开源,感兴趣的开发者可以积极关注。
