当前位置：首页 > news >正文

倒反天罡！Gemini Flash表现超越Pro，“帕累托前沿已经反转了”

news 2026/6/15 23:23:22

Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数，比超大杯Pro还略胜一筹。

倒反天罡！

Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数，比超大杯Pro还略胜一筹。

而且Flash的速度和性价比，都是Pro版难以望其项背的。

谷歌解释，这是因为Flash版当中的一些优化技术，还未在Pro里应用。

但用网友的话讲，Flash这样的表现的确提醒我们帕累托前沿已经反转，是时候抛却“旗舰版迷信”了。

Flash表现超越Pro

根据谷歌团队最新披露的详细评测数据，Gemini 3 Flash这一次不仅在智能程度上全面超越了上一代的Gemini 2.5 Pro，还在编程能力和多模态推理等核心性能维度上，直接反超了自家的旗舰Gemini 3 Pro以及竞品GPT-5.2。

在衡量软件工程能力的权威测试SWE-Bench Verified 中，Flash 一举斩获了 78% 的高分。这一成绩不仅在智能程度上全面碾压了上一代的Gemini 2.5 Pro，还反超了自家旗舰Gemini 3 Pro的76.2%。

在AIME 2025数学竞赛基准测试中，结合代码执行能力的Flash得分高达 99.7%，已无限逼近100%的满分大关。

即便是在难度极高、被设计用来难倒现代大模型的Humanity’s Last Exam测试中，Flash的表现也紧追旗舰，在不使用工具的情况下获得了33.7%的分数，与Pro版37.5%的成绩已经处于同一梯队。

除了硬核的智能指标，Flash的响应速度与成本也极具优势。

数据表明，Gemini 3 Flash的推理速度是2.5 Pro的3倍，Token消耗量减少30%，价格也极具竞争力，输入端仅需0.50美元每100万Token，输出端为3美元每100万Token。

虽然略贵于Gemini 2.5 Flash（每百万输入0.3美元/每百万输出2.5美元），但考虑到其性能和速度，这一价格仍然相当具有吸引力。

如果轻量版已经如此强大，甚至在关键指标上实现了反超，那么“超大杯”存在的意义究竟是什么？

对于这个问题，谷歌核心团队给出了一个意料之外的答案——这并非研发事故，而恰恰是他们顶层设计中最为关键的一环。

“Pro的作用就是蒸馏Flash”

就在前几天，Gemini的三位负责人——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer，以及Google AI Studio产品负责人Logan Kilpatrick同台，正式揭示了这背后的战略逻辑。

在谈及旗舰模型的定位时，Oriol Vinyals抛出了极为犀利的观点，他直言Pro模型的主要作用其实就是拿来“蒸馏Flash。

团队认为Flash这样“小而强”的模型对用户至关重要，随着迭代，新一代Flash往往能达到甚至超过上一代Pro的水平。

在理想状态下，Pro的目标是不计成本地探索智能上限，而Flash则通过蒸馏技术继承Pro的能力，并极致优化延迟、成本和吞吐量，未来Pro甚至可能主要作为一个“生成器”，专门用来生产高质量的Flash模型。

但这并不意味着主宰AI发展多年的Scaling Law已经失效。

面对Flash这种“以小博大”的表现，外界很容易产生一种错觉，认为大模型走到头了。

然而在对话中，Vinyals旗帜鲜明地反驳了这一点，他明确表示，与目前流行的“Scaling 结束论”相反，Gemini 团队通过持续扩大规模实现了巨大的性能飞跃，在他看来，前方依然“看不到墙”（No walls in sight）。

Scaling Law虽未消亡，但也确实在发生演变。

Noam认为单纯靠预训练阶段堆砌参数来换取智能增长的路径确实正在逼近极限，“规模神话”不再是唯一的真理，未来的扩展重点将从预训练阶段的算力堆叠，转移到推理侧的扩展（Test-time Compute）。

对于未来的演进，三位负责人一致认为后训练（Post-training）是目前最大的“未开垦绿地”。

虽然代码、推理和数学等基准测试已被逐渐“击穿”，但在诸如“规划旧金山旅行”这类开放式任务上，通过后训练提升的空间依然巨大。

参数不再是迷信

Flash带来的冲击波正在引发一场关于“参数至上论”的大讨论。

开发者们惊讶地发现，那个一直以来被视为铁律的“帕累托前沿”竟然发生了倒转——更便宜、更快的模型，现在竟然也是更聪明的模型。

这直接打破了“模型越大越好”的迷信。

针对Flash为何能反杀Pro，Google DeepMind的研究员Ankesh Anand揭示了背后的技术真相——答案在于强化学习。

他明确指出，Flash不仅仅是Pro的简单蒸馏版，它还集成了大量最新的Agentic RL（代理强化学习）研究成果。

这一结果证明了一个核心命题：在提升模型能力的道路上，单纯堆砌参数并不是唯一的路径。

通过更先进的后训练算法（如RL），小模型完全可以实现“降维打击”，在软件工程等关键领域战胜参数量巨大的旗舰模型。

正如开发者所言，现在是时候停止对“旗舰版”的盲目崇拜了。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量

查看全文

http://www.gsyq.cn/news/142046.html

[特殊字符]大模型开发新革命！MCP Agent Graph：可视化拖拽，小白也能构建复杂AI系统

线性与Softmax回归的实现与应用:深度学习框架下的线性回归模型快速构建与训练

如何构建一个真正理解图像、表格和文本的多模态 RAG 系统？

Java毕设项目：基于SpringBoot的爱心公益网站(源码+文档，讲解、调试运行，定制等)

24L01话筒与蓝牙共存方案：射频频段冲突规避说明

Java计算机毕设之基于Spring Boot的大学生勤工俭学系统的设计与实现基于SpringBoot的勤工俭学系统设计与实现（完整前后端代码+说明文档+LW，调试定制等）

南京婚纱摄影排名推荐：婚纱照定格幸福浪漫时光 - charlieruizvin

二阶提示词注入在多Agentic场景下的攻击探索

【Open-AutoGLM本地部署全攻略】：手把手教你从零搭建个人AI知识引擎

Open-AutoGLM ollama究竟有多强？5大核心功能带你全面掌握

2025年年终类似Confluence的工具推荐：多维度实测对比，不同规模团队的高可靠性选择 - 十大品牌推荐

AI时代HR如何不被淘汰？核心竞争力升级攻略

为什么你的Open-AutoGLM在Mac上跑不起来？这7个常见错误必须避开

模型部署难题全解析，Open-AutoGLM一键调用方案大公开

【课程设计/毕业设计】基于SpringBoot的爱心公益网站公益项目管理、捐赠追踪、志愿者匹配【附源码、数据库、万字文档】

Mockjs巧解：GET-POST参数差异返回不同数据的实战妙招

2025-2026北京通州区子女抚养权纠纷律师事务所深度评测指南 - 苏木2025

我们教会了AI说话——现在它正在学习与自己对话

面试官问：Text2SQL 如何和 Agent / Function Call 结合，才能真正落地？

从零实现MOSFET工作原理仿真：电力电子环境下的操作指南

9个AI论文工具，助力继续教育学生高效写作！

AI代码生成新里程碑：Open-AutoGLM核心技术解析与应用场景

nodejs基于微信小程序的云校园系统学生成绩宿舍安排考勤新闻论坛校园（源码+文档+运行视频+讲解视频）

【Mac本地部署智谱Open-AutoGLM全攻略】：手把手教你5步完成AI模型私有化部署

HR工作哪件最头疼？这些难题直接戳中无数人

RLVR_竟然不是在学习新知识？而是在学习如何使用知识

真空包装袋十大品牌口碑榜，实力厂家深度解析，真空包装袋直销厂家选哪家技术领航者深度解析 - 品牌推荐师

一篇搞定 dotnet ef：EF Core 常用命令与实战指南

北航硕士亲授大模型学习路线图：从原理到开发，拿下86W+高薪offer必备资源

【智谱清言Open-AutoGLM插件深度解析】：掌握AI自动化编程的未来利器

Flash表现超越Pro

“Pro的作用就是蒸馏Flash”

参数不再是迷信

相关文章：