当前位置：首页 > news >正文

研究 Agent 如何通过 Champion Loop 实现自我改进与对抗验证

news 2026/6/24 4:41:59

你在用 Hermes 这类 Agent 工具搭建日常研究 cron：每天固定跑 Equities Daily、Top 7 Synthesis、Alpha Triage。起初输出还算新鲜，过一周你就会发现一个清晰的退化轨迹——观点越来越中庸、格式越来越冗长、对你的核心 thesis 从不真正施压。它像一个极度想取悦上司的年轻分析师，永远点头、永远补充正面理由，从不主动找反例。

这不是模型能力不足，而是当前 Agentic 流程里缺少一个能自己完成“挑刺—验证—迭代”闭环的机制。单纯的 human-in-the-loop 反馈虽然有效，但成本高、速度慢，而且容易让 Agent 陷入“谄媚模式”：它学会了让你舒服，而不是学会了让你更接近真相。

0xJeff 在真实研究场景里遇到了完全相同的痛点。他把精力从“持续手动纠正”转向了内部循环工程，让 Agent 自己承担部分验证和改进工作。

为什么单次生成和人类反馈都解决不了根本问题

Generative AI 是“给一个提示，吐一个答案”。
Agentic AI 更进一步：它能规划下一步、设置 recurring cron、根据历史输出学习。

但当 cron 长期运行时，问题立刻暴露：

输出质量依赖模型 + 工具 + 提示格式
没有对抗性压力测试，Agent 天然倾向于“最不冒犯”的版本
每次改进都需要你主动输入反馈，长期来看不可持续

这就像你雇了一个聪明但极度迎合的实习生——他每次都把报告写得“看起来很专业”，却从不指出你 thesis 里真正脆弱的地方。久而久之，你得到的不是更锐利的洞见，而是越来越精致的共识复述。

类比：训练一个只会背模板的分析师

想象你带一个新分析师。

你给了他 14 份历史 deal memo，让他练习你的分析框架。他把格式、你喜欢强调的点、你忽略的信号全都记下来。两周后，他在这些 memo 上表现完美。

然后你让他处理第 15 份全新交易——一家周期性矿业公司。他却套用之前 SaaS 公司 90% recurring revenue 的框架，推荐了 4x 杠杆 LBO。

他不是笨，他只是在训练集上过拟合了。

研究 Agent 目前面临的正是这个困境：它在你反复给过的反馈样本上越调越好，却在真正新鲜的市场环境下快速退化。

Champion Loop 的核心设计，就是为了打破这种过拟合。

Self-Improving Champion Loop 的真实运行机制

这个循环把提示改进从“凭感觉调整”变成了可验证的工程流程。核心思想只有一条：永远只在从未见过的留出数据（holdout set）上决定是否晋升新版本。

具体四步（0xJeff 实际落地后的简化版）：

冻结基线（Freeze the baseline）
把当前最好的提示定为 Champion，在 20 份历史输出上打分。把其中 14 份作为可编辑的 working set，剩下 6 份作为永远不碰的 holdout set，并记录 Champion 在 holdout 上的得分。
只改一件事（Fix ONE thing）
从 working set 里挑出一个明确的失败模式（比如“太 consensus-heavy”或“格式冗长”），只针对这个单一问题修改提示，生成 Challenger。绝不一次性改多个地方。
先在 working set 验证，再在 holdout 决胜
Challenger 先在 working set 上测试。如果看起来更好，再冻结并在 holdout set 上跑。
只有同时满足两个条件才晋升：
- 在 holdout 上超过 Champion 一定 margin
- 没有打破任何 must-pass 规则（格式、必含字段等）
停止条件
达到目标分数、预算耗尽、或连续两轮 holdout 没有提升，就停止。防止在局部最优里无限打转。

最关键的一条铁律：绝不根据 working set 的表现晋升。working set 就像你已经给实习生看过的 memo，它只能用来发现问题，不能用来决定是否采用新版本。

这个设计直接把“过拟合”和“静默退化”两种最常见的 prompt 改进失败模式堵死了。

Feedback Sweep Loop：让 Champion Loop 有持续燃料

Champion Loop 需要干净、可排序的改进信号。Feedback Sweep Loop 就是它的自动收集器。

它持续监听你对输出的抱怨（“这个格式太乱”“缺少 tail risk 讨论”），按 workflow 自动归类、去重、排序，然后把“本周最该修复的 Top N 问题”喂给 Champion Loop。

这样你不再需要每次都主动想“今天该改什么”，而是把精力放在结构化反馈上——这本身也把你从“操作员”变成了更好的“系统设计师”。

两种循环的真实权衡

维度	传统人类反馈循环	Champion Loop + Feedback Sweep
反馈来源	用户手动、碎片化	Agent 自动收集 + 结构化排序
改进验证方式	主观感受 + 即时满意度	Holdout set 客观打分 + 必须通过规则
过拟合风险	极高（容易越调越针对历史样本）	极低（从未见过的数据决定晋升）
人类时间成本	持续高	初期投入，之后显著下降
Agent 自主性	依赖持续外部输入	逐步把验证和迭代能力内化
输出质量趋势	容易 plateau 或缓慢退化	可验证的持续提升