First Proof项目二批评测结果出炉:7道题AI解答达发表标准,各系统表现与成本差异大
【导语:陶哲轩主导的First Proof项目第二批评测结果公布,此次评测提高标准并引入双盲同行评议机制,4套AI系统参与答题,部分题目AI给出新颖解法,各系统在解题能力、成本和耗时上差异明显,后续8 - 10月将开展第三批评测。】
本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则,相比第一次评测进一步提高标准。引入双盲同行评议机制,由项目组统一操作,30位数学专家像期刊审稿一样盲审打分,评审只能看到证明稿件,不知作者是AI还是人类,证明按人类数学论文标准分为四档。
参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼,在P5随机偏微分方程题中跳出人类常规思路,推导出更强结论;在第三题离散概率、第九题代数组合中,部分AI也给出原创论证。面对有成熟文献参考的题目,AI优势明显。
但各系统也存在不足,OpenAI原生ChatGPT 5.5 Pro原创能力偏弱;普林斯顿团队系统投入产出比低;苏黎世联邦理工团队系统成本高;陶哲轩所在UCLA团队系统虽稳定性尚可,但未实现能力突破。
评测统计了四套AI的调用成本与耗时,云服务器总成本不足35美元可忽略不计,但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高,10道题总花费117美元,运行5.8小时耗时最短;普林斯顿团队系统花费1014美元、运行7.8小时;苏黎世联邦理工团队系统总费用达3186美元,运行22.9小时;UCLA团队系统成本最高,共计4799美元,运行23.1小时。
陶哲轩认为本轮整体表现未达预期,现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。
编辑观点:First Proof项目评测为AI数学能力提供了严格检验,虽本次未达预期,但各系统亮点也展现了AI潜力,后续评测值得关注其改进成果。
