当前位置：首页 > news >正文

First Proof项目二批评测结果出炉：7道题AI解答达发表标准，各系统表现与成本差异大

news 2026/6/13 20:19:31

【导语：陶哲轩主导的First Proof项目第二批评测结果公布，此次评测提高标准并引入双盲同行评议机制，4套AI系统参与答题，部分题目AI给出新颖解法，各系统在解题能力、成本和耗时上差异明显，后续8 - 10月将开展第三批评测。】

评测升级：引入双盲同行评议

本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则，相比第一次评测进一步提高标准。引入双盲同行评议机制，由项目组统一操作，30位数学专家像期刊审稿一样盲审打分，评审只能看到证明稿件，不知作者是AI还是人类，证明按人类数学论文标准分为四档。

AI系统表现：各有优劣

参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼，在P5随机偏微分方程题中跳出人类常规思路，推导出更强结论；在第三题离散概率、第九题代数组合中，部分AI也给出原创论证。面对有成熟文献参考的题目，AI优势明显。

但各系统也存在不足，OpenAI原生ChatGPT 5.5 Pro原创能力偏弱；普林斯顿团队系统投入产出比低；苏黎世联邦理工团队系统成本高；陶哲轩所在UCLA团队系统虽稳定性尚可，但未实现能力突破。

成本与耗时：差距悬殊

评测统计了四套AI的调用成本与耗时，云服务器总成本不足35美元可忽略不计，但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高，10道题总花费117美元，运行5.8小时耗时最短；普林斯顿团队系统花费1014美元、运行7.8小时；苏黎世联邦理工团队系统总费用达3186美元，运行22.9小时；UCLA团队系统成本最高，共计4799美元，运行23.1小时。

后续安排：第三批评测待启

陶哲轩认为本轮整体表现未达预期，现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测，评测规则沿用第二批次标准。

编辑观点：First Proof项目评测为AI数学能力提供了严格检验，虽本次未达预期，但各系统亮点也展现了AI潜力，后续评测值得关注其改进成果。

http://www.gsyq.cn/news/1519163.html

相关文章：

2026年6月一体式超声波液位计主要品牌排行榜：国产力量崛起与技术迭代下的市场格局重构 - 仪表品牌榜

数学建模竞赛避坑指南：如何把‘送分题’变成‘送命题’？——以宣传片排期与聚类分析为例

2026顺德室内除甲醛公司，甲醛检测哪家专业？深度测评：佛山佰家环保凭实力成为本地业主首选 - 专注室内空气检测治理

ArcGIS路网分析避坑指南：OSM双线数据转单线的完整流程（附30米缓冲区设置技巧）

干细胞技术突破：基因编辑与工程化改造的双重赋能

别再只用Save了！C#中Bitmap转JPG/PNG时，如何精准控制图片质量和压缩比？

上线只是一个产品的开始

Windows 7网络性能测试完整解决方案：从兼容性问题到专业部署实践

【趣解】嵌入式Linux：消费电子的标配

告别手动调参！用Geolitix的Time信号批处理，5分钟搞定GPR数据预处理

用 AI 做 App 上架一周后，我发现普通人做软件的门槛变了

微软2026年6月补丁星期二技术分析：206个漏洞、3个已公开零日的分级修复方案

终极指南：SMAPI安卓安装器 - 星露谷物语MOD一键安装神器

从ENVI分类图到ArcGIS专题图：一份完整的土地利用制图‘交接’指南（含符号化与出图）

Obsidian Importer终极指南：如何轻松将各类笔记迁移到Obsidian

3分钟为你的浏览器安装智能AI助手：Page Assist终极指南

深入解析NXP Kinetis KE1x系列Flash FTFE模块：命令系统、并发操作与可靠性设计

2026苏州外墙漏水维修行业全景解析：苏州鼎壹万防水补漏公司适配推荐与专业选型指南专业防水公司排名推荐(2026年6月防水补漏最新TOP权威排名 - 鼎壹万修缮说

小说下载器终极教程：轻松保存200+网站小说，打造个人数字图书馆

GriddyCode 终极指南：如何用这款视觉化代码编辑器提升编程体验

WorkshopDL：跨平台玩家的Steam创意工坊下载神器

CANN神经网络算子库ops-nn核心技术深度解析：从Conv2D卷积到LayerNorm归一化的昇腾NPU加速原理与实战优化全路径

调问更新：手机号验证、Excel 导入等新功能，提升问卷数据收集与分析体验

比付费App还好用！NAS一键部署电台中心，全球电台广播自由畅听！

3步实现设计稿到代码的无缝转换：Marketch插件完全指南

AI 驱动的 UI 组件智能组合推荐：从用户行为到布局方案的自动推导

Translumo屏幕翻译工具高效指南：实时OCR与跨语言翻译实战解析

SpaceX上市：24年逆袭，从火箭回收、星链到太空算力，新故事能成真吗？

交通规划师效率翻倍指南：TransCad重力模型预测，从原始数据到分布矩阵的全链路解析

MC9328MX1 RTC与SDRAM控制器实战：寄存器配置、中断处理与低功耗设计