当前位置: 首页 > news >正文

First Proof项目二批评测结果出炉:7道题AI解答达发表标准,各系统表现与成本差异大

【导语:陶哲轩主导的First Proof项目第二批评测结果公布,此次评测提高标准并引入双盲同行评议机制,4套AI系统参与答题,部分题目AI给出新颖解法,各系统在解题能力、成本和耗时上差异明显,后续8 - 10月将开展第三批评测。】


评测升级:引入双盲同行评议

本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则,相比第一次评测进一步提高标准。引入双盲同行评议机制,由项目组统一操作,30位数学专家像期刊审稿一样盲审打分,评审只能看到证明稿件,不知作者是AI还是人类,证明按人类数学论文标准分为四档。

AI系统表现:各有优劣

参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼,在P5随机偏微分方程题中跳出人类常规思路,推导出更强结论;在第三题离散概率、第九题代数组合中,部分AI也给出原创论证。面对有成熟文献参考的题目,AI优势明显。

但各系统也存在不足,OpenAI原生ChatGPT 5.5 Pro原创能力偏弱;普林斯顿团队系统投入产出比低;苏黎世联邦理工团队系统成本高;陶哲轩所在UCLA团队系统虽稳定性尚可,但未实现能力突破。

成本与耗时:差距悬殊

评测统计了四套AI的调用成本与耗时,云服务器总成本不足35美元可忽略不计,但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高,10道题总花费117美元,运行5.8小时耗时最短;普林斯顿团队系统花费1014美元、运行7.8小时;苏黎世联邦理工团队系统总费用达3186美元,运行22.9小时;UCLA团队系统成本最高,共计4799美元,运行23.1小时。

后续安排:第三批评测待启

陶哲轩认为本轮整体表现未达预期,现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。

编辑观点:First Proof项目评测为AI数学能力提供了严格检验,虽本次未达预期,但各系统亮点也展现了AI潜力,后续评测值得关注其改进成果。

http://www.gsyq.cn/news/1519163.html

相关文章:

  • 2026年6月一体式超声波液位计主要品牌排行榜:国产力量崛起与技术迭代下的市场格局重构 - 仪表品牌榜
  • 数学建模竞赛避坑指南:如何把‘送分题’变成‘送命题’?——以宣传片排期与聚类分析为例
  • 2026顺德室内除甲醛公司,甲醛检测哪家专业?深度测评:佛山佰家环保凭实力成为本地业主首选 - 专注室内空气检测治理
  • ArcGIS路网分析避坑指南:OSM双线数据转单线的完整流程(附30米缓冲区设置技巧)
  • 干细胞技术突破:基因编辑与工程化改造的双重赋能
  • 别再只用Save了!C#中Bitmap转JPG/PNG时,如何精准控制图片质量和压缩比?
  • 上线只是一个产品的开始
  • Windows 7网络性能测试完整解决方案:从兼容性问题到专业部署实践
  • 【趣解】嵌入式Linux:消费电子的标配
  • 告别手动调参!用Geolitix的Time信号批处理,5分钟搞定GPR数据预处理
  • 用 AI 做 App 上架一周后,我发现普通人做软件的门槛变了
  • 微软2026年6月补丁星期二技术分析:206个漏洞、3个已公开零日的分级修复方案
  • 终极指南:SMAPI安卓安装器 - 星露谷物语MOD一键安装神器
  • 从ENVI分类图到ArcGIS专题图:一份完整的土地利用制图‘交接’指南(含符号化与出图)
  • Obsidian Importer终极指南:如何轻松将各类笔记迁移到Obsidian
  • 3分钟为你的浏览器安装智能AI助手:Page Assist终极指南
  • 深入解析NXP Kinetis KE1x系列Flash FTFE模块:命令系统、并发操作与可靠性设计
  • 2026苏州外墙漏水维修行业全景解析:苏州鼎壹万防水补漏公司适配推荐与专业选型指南 专业防水公司排名推荐(2026年6月防水补漏最新TOP权威排名 - 鼎壹万修缮说
  • 小说下载器终极教程:轻松保存200+网站小说,打造个人数字图书馆
  • GriddyCode 终极指南:如何用这款视觉化代码编辑器提升编程体验
  • WorkshopDL:跨平台玩家的Steam创意工坊下载神器
  • CANN神经网络算子库ops-nn核心技术深度解析:从Conv2D卷积到LayerNorm归一化的昇腾NPU加速原理与实战优化全路径
  • 调问更新:手机号验证、Excel 导入等新功能,提升问卷数据收集与分析体验
  • 比付费App还好用!NAS一键部署电台中心,全球电台广播自由畅听!
  • 3步实现设计稿到代码的无缝转换:Marketch插件完全指南
  • AI 驱动的 UI 组件智能组合推荐:从用户行为到布局方案的自动推导
  • Translumo屏幕翻译工具高效指南:实时OCR与跨语言翻译实战解析
  • SpaceX上市:24年逆袭,从火箭回收、星链到太空算力,新故事能成真吗?
  • 交通规划师效率翻倍指南:TransCad重力模型预测,从原始数据到分布矩阵的全链路解析
  • MC9328MX1 RTC与SDRAM控制器实战:寄存器配置、中断处理与低功耗设计