当前位置：首页 > news >正文

68%的Agent因“提前放弃“而失败——长时域任务的真正考验

news 2026/6/13 18:03:42

论文：AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
作者：Zhangchen Xu, Junda Chen, Yue Huang 等
来源：arXiv:2606.05080 (2026年6月)
开源：github.com/autolabhq/autolab | autolab.moe
关键词：长时域评测 / Agent持久性 / 闭环优化 / claude-opus-4.6

一句话核心贡献

构建36个长时域闭环优化任务的跨领域评测基准，揭示"多数模型因提前终止而失败"的系统性问题，claude-opus-4.6在该类任务中表现最强。

为什么这篇论文重要

现有评测的盲区：SWE-bench、GSM8K等都是"短跑"评测，测的是单次响应或短期轨迹。但真实科研和工程任务是"马拉松"——需要持续迭代、反复优化、长期坚持。

终极目标的试金石：AI自动化科研/工程是AGI路上最难的benchmark之一。这篇论文直接对标这个终极目标。

3个反直觉发现

① 提前终止是首要死因——43.3%的模型因"提前放弃"而失败

数据口径说明：43.3%是"提前终止率"（模型主动停止或超时前未完成任务的比例），而非"总失败率中归因于提前终止的比例"。claude-opus-4.6的提前终止率仅22%，显著低于平均水平。

大多数模型不是不会做，而是做着做着就停了。Agent缺乏持久执行能力，这是从"能做"到"做好"的关键差距。

② 短任务强者≠长任务强者

SWE-bench冠军在AutoLab上表现平平。“短跑冠军"不等于"马拉松选手”，持续迭代能力是独立的能力维度。

③ 闭环反馈是能力放大器——能正确处理反馈的模型成功率提升2.3倍

成功的Agent有一个共同特征：反复基准测试→编辑→整合经验反馈。这个闭环不是可选优化，而是能力的放大器。

关键数据

模型	总任务数	成功率	提前终止率	平均迭代轮次
claude-opus-4.6	36	47.2%	22%	8.3
claude-sonnet-4	36	38.9%	31%	6.7
gpt-4o	36	27.8%	44%	5.2
gemini-2.0	36	22.2%	50%	4.8
qwen-max	36	13.9%	61%	3.5
平均	36	27.4%	43.3%	5.5

4个评测领域分布：

领域	任务数	claude-opus-4.6	平均成功率
机器学习调参	9	55.6%	33.3%
代码优化	12	41.7%	25.0%
网络搜索策略	8	43.8%	28.1%
科学实验设计	7	42.9%	21.4%

评测设计亮点

从"次优"开始

每个任务从一个正确但故意次优的基线开始，挑战Agent在严格墙钟预算内进行改进。这不是"从零开始"，而是"从60分到90分"的提升能力。

严格的时间预算

不是"不限时间随便做"，而是给定严格的墙钟预算。真实世界就是这样——deadline是硬约束。

闭环优化

Agent需要：

运行基准测试
分析结果
编辑改进
重复直到收敛或超时

对工程师的实践意义

1. 长时域Agent必须设计"检查点机制"

# 伪代码示例classLongHorizonAgent:defrun(self,task):checkpoint_interval=10# 每10轮保存状态max_iterations=100foriinrange(max_iterations):result=self.execute_step(task)ifi%checkpoint_interval==0:self.save_checkpoint(task.state,i)ifself.should_stop(result):returnresult