硅谷大佬力推「Loop Engineering」革命,AI将自主循环完成工作
01
为什么会出现 Loop Engineering?
Loop Engineering,就是用你设计的系统来替代你自己去 prompt agent。
这里的 loop 可以理解为一个递归目标:你定义一个目的,AI 反复迭代直到完成。它大概由五个基本模块构成,Claude Code 和 Codex 现在都已经具备了。
我认为这可能是我们未来与编码智能体协作方式的雏形。不过现在还早,我自己也保持怀疑,因为 token 成本是个必须认真对待的问题,使用模式因人而异,差别可以非常大。同时你仍然需要某种方式保证质量不下滑,关于代码越来越 slop 的担忧也是合理的。虽然这样说,还是很值得好好聊聊 Loop Engineering 究竟是怎么回事。
Peter Steinberger 最近说过:「你不应该再去手动提示编码智能体了。你应该设计让智能体自动运行的 loop。」
Anthropic Claude Code 负责人 Boris Cherny 也说:「我不再手动提示 Claude 了。我有 loop 在跑,它们负责提示 Claude、决定下一步做什么。我的工作是写 loop。」
那这些话到底是什么意思?
过去大概两年,你从编码智能体那里「拿到东西」的方式,就是写一个好的提示词,然后提供足够的上下文。你输入一段话,读它返回的内容,再输入下一段话。智能体是一个工具,你全程控制着它,一轮接一轮。
但这种方式某种程度上已经过去了,或者说,至少有一批人认为它要过去了。
现在,你构建一个小型系统,让它自己去发现任务、分配任务、检查任务、记录完成情况、决定下一步,然后让这个系统去触发智能体。你不用亲自去触发智能体,让这个系统来做这件事。
我之前写过与此相近的两个概念:agent harness engineering(为单个智能体构建运行环境)和 factory model(构建软件的系统)。Loop engineering 就在 harness 的上一层,它是一个跑在计时器上、能自己生成小助手、并且能自我驱动的 harness。
让我意外的是,这件事已经不再是工具层面的问题了。一年前,如果你想跑一个 loop,你得自己写一堆 bash 脚本,然后永远维护那堆脚本,它只属于你一个人。现在这些模块已经直接内置在产品里了。Steinberger 列出的清单和 Codex 应用几乎一一对应,和 Claude Code 也几乎完全一样。
一旦你意识到两者的结构是相同的,你就不会再纠结用哪个工具了,你只需要设计一个在任何工具里都能跑起来的 loop。
02
一个 Loop,
需要五个模块+memory
一个 loop 需要五样东西,外加一个记忆的地方:
- Automations:按计划自动触发,独立完成发现和分类(triage)工作
- Worktrees:让并行运行的多个智能体互不干扰
- Skills:把项目知识写下来,让智能体不用每次都靠猜
- Plugins 和 Connectors:把智能体接入你已经在用的工具
- Sub-agents:一个负责生成,另一个负责检查
第六样东西是 memory。一个 Markdown 文件,或者一块 Linear 看板,任何能活在单次对话之外、记录「已完成什么」和「下一步是什么」的地方都行。听起来简单得不像话,但这是所有长时间运行的智能体都依赖的同一个技巧。我在《long-running agents》里专门写过:模型在每次运行之间会忘掉一切,所以记忆必须存在磁盘上,而不是在上下文里。智能体会忘,但代码仓库不会。
Claude Code 和 Codex 现在都具备了这五个模块。
名字在两个产品里略有不同,但能力是同一回事。我想逐一讲清楚,因为细节决定一个 loop 到底能不能跑好,处理不好,它就会在你不注意的地方悄悄出问题。
Automations:loop 的心跳
Automations,是让 loop 成为真正的 loop、不只是你手动跑了一次的东西。
在 Codex 应用里,你在 Automations 标签页创建一个 automation,选择项目、要运行的提示词、运行频率,以及是在本地 checkout 上跑还是在后台 worktree 上跑。有发现的运行会进入 Triage 收件箱,什么都没发现的运行会自动归档,这个设计很贴心。
OpenAI 内部用它来处理一些枯燥的日常任务,比如每日 issue 分类、汇总 CI 失败、写 commit 简报、排查上周某人引入的 bug。Automation 还可以调用 skill,这样你的定期任务就能保持可维护性,用 skill-name 触发,不用把一大堆指令粘贴进一个没人会去更新的定时任务里。
Claude Code 用另一种方式实现了同样的效果,通过 scheduling 和 hooks。你可以用 /loop 按间隔运行一个提示词或命令,可以安排 cron 任务,可以用 hooks 在智能体生命周期的特定节点触发 shell 命令,或者直接推到 GitHub Actions 上,这样关掉电脑它也照样跑。
核心思路完全一样:定义一个自主任务,给它一个节奏,发现结果会主动来找你,你不用四处去查。
还有一个值得了解的「in-session primitive」,它更接近这篇文章真正想说的东西。/loop 按节奏重复运行;/goal 则会持续运行,直到你写下的条件真正成立,每一轮结束后,一个独立的小模型会检查是否已经完成,所以写代码的智能体不是给自己打分的那个。你给它一个条件,比如「test/auth 里所有测试通过,lint 也干净」,然后走开。Codex 里有同样的东西,也叫 /goal,它会跨轮次持续工作直到可验证的停止条件成立,支持暂停、恢复和清除。
同一个原语,两个工具都有,这其实是贯穿这篇文章的整体规律。
这一层的作用是把任务浮出水面,loop 的其余部分负责对这些任务采取行动。
Worktrees:让并行不变成一团乱麻
一旦你同时跑超过一个智能体时,文件就开始互相冲突了,这就是失败的来源。两个智能体同时写同一个文件,和两个工程师在没沟通的情况下提交同一行代码,是完全一样的麻烦。
git worktree解决了这个问题:它是一个独立的工作目录,跑在自己的分支上,但共享同一个仓库历史,所以一个智能体的改动从物理上就无法碰到另一个智能体的 checkout。
Codex 直接内置了 worktree 支持,多个线程可以同时访问同一个仓库互不干扰。Claude Code 用 git worktree、–worktree flag(在独立 checkout 里打开一个会话)、以及 isolation: worktree 设置(给 subagent 用,让每个助手都有一个用完自动清理的全新 checkout)来实现同样的隔离。
我在《orchestration tax》里写过这件事的另一面:worktrees 消除了机械层面的冲突,但你仍然是那个瓶颈,你一天能认真 review 多少份产出,才是你实际能跑多少个 agent 的上限,不是工具。
Skills:让智能体不用每次都靠猜
一个 skill,就是让你不用每次开新会话都从头解释一遍项目是怎么回事的方式。
两个工具的格式相同:一个文件夹,里面有一个 SKILL.md,包含指令和元数据,加上可选的脚本、引用和资源文件。Codex 在你用 $ 或 /skills 调用时运行 skill,或者在任务描述与 skill 描述匹配时自动触发。这就是为什么一个简洁、无聊的描述比一个聪明的描述更好用。Claude Code 的做法完全一样,我在《agent skills》里写过这个模式。
Skills 也是让 intent 不再反复付出成本的地方。我在《intent debt》里说过:智能体每次会话都是从零开始的,你没说清楚的地方,它会用一个「自信的猜测」来填上。一个 skill,就是把这些意图写在外面,约定、构建步骤、「我们不这么做是因为那次事故」,写一次,智能体每次运行都读到。没有 skills,loop 每个周期都要从零推导你的整个项目;有了 skills,它会复利增长。
有一点需要搞清楚:skill 是编写格式,plugin 是发布方式。当你想跨多个仓库共享一个 skill,或者把几个 skill 打包在一起,你就把它们打包成一个 plugin。Codex 和 Claude Code 都是这样。
Plugins 和 Connectors:让 loop 触及真实在用的工具
一个只能看到文件系统的 loop,是一个很小的 loop。
Connectors 基于 MCP 构建,让智能体能读取你的 issue tracker、查询数据库、访问 staging API、在 Slack 里发消息。Codex 和 Claude Code 都支持 MCP,所以你为一个工具写的 connector 通常在另一个里也能直接用。Plugins 则把 connectors 和 skills 打包在一起,让你的队友一键安装你的整套配置,不用从记忆里重新拼一遍。
有了 Connectors,loop 才能真正在你的实际环境里干活,不只是跟你说如果我能操作的话我会这么做。这就是一个说「这是修复方案」的智能体和一个自己开 PR、关联 Linear ticket、等 CI 变绿后自动 ping 频道的 loop 之间的区别。
Sub-agents:让生成者和检查者分开
loop 里最有用的结构设计,没有之一,就是把写代码的和检查代码的拆开。
让写代码的模型来评审自己的代码,它会对自己太好说话。一个拿着不同指令、有时甚至是不同模型的第二个智能体,能抓住第一个模型自己没意识到、或者选择忽略的问题。
Codex 只在你要求时生成 subagents,同时运行,然后把结果合并成一个答案。你在 .codex/agents/ 里用 TOML 文件定义自己的 agents,每个有名字、描述、指令,以及可选的模型和推理力度,你的安全审查员可以是一个高力度的强模型,而你的探索者可以是某个快速的只读工具。Claude Code 在 .claude/agents/ 里用 subagents 和 agent teams 做同样的事,任务在它们之间传递。两个工具里常见的分工都是:一个 agent 探索,一个实现,一个对照规格验证。
我之前写过两次这个逻辑,一次是《code agent orchestra》,一次是《adversarial code review》。它在 loop 里之所以特别重要,是因为 loop 在你不盯着的时候跑,所以一个你真正信任的验证者,是你敢走开的唯一理由。
Sub-agents 确实会烧更多 token,因为每一个都要做自己的模型和工具调用。所以别到处用,只在真正需要有人帮你再把把关的地方才值得开。这其实也是 Claude Code 的 /goal 背后的逻辑:决定 loop 有没有完成的,应该是是一个全新的模型,而不是那个做了这些工作的模型,生成者和检查者分开这件事,在这里被用到了「要不要停」这个判断上本身。
03
完整的 Loop 长什么样?
把这些拼在一起,一个单线程就变成了一个小型控制台。以下是我一直在用的一种形态:
每天早上,一个 automation 在仓库上跑起来。它的提示词调用一个 triage skill,读取昨天的 CI 失败、open issues、最近的 commits,然后把发现结果写进一个 Markdown 文件或 Linear 看板。对于每一个值得处理的发现,loop 会开一个隔离的 worktree,派一个 sub-agent 去起草修复方案,再派第二个 sub-agent 对照项目 skills 和现有测试来审查这份草案。
Connectors 让 loop 自己开 PR、更新 ticket。loop 处理不了的东西,落进 triage 收件箱等我来看。状态文件(state file)是把整个系统串起来的那根线,它记得尝试过什么、通过了什么、还有什么悬而未决,所以明天早上的运行会从今天停下来的地方继续。
看看你实际做了什么:你只设计了一次,你没有手动提示任何一个步骤。这就是 Steinberger 那句话真正变成现实的样子,而且它在 Codex 里和在 Claude Code 里是同一个 loop,因为两边的模块是同样的模块。
04
Loop 仍然****离不开人
Loop 改变了工作的形态,但它并没有让你变得多余。随着 loop 越来越好,有三个问题反而会变得更尖锐:
**验证仍然是你的责任。**一个无人值守运行的 loop,同时也是一个无人值守犯错的 loop。把验证 sub-agent 和生成者拆开,是为了让 loop 的「完成了」这个判断有点意义。即便如此,「完成了」也只是一个声明,不是证明。我一直在重复同一句话:你的工作是发布你亲自确认过能跑的代码。
**如果你放任不管,你对代码库的理解会腐烂。**loop 跑得越快、产出越多,你没亲手写过的代码就越堆越多,实际存在的东西和你真正理解的东西之间的差距就越大。这就是理解债,跑得越顺的 loop,只会让这个差距增长得越快。唯一的解法是你真的去读 loop 生成的东西。
**最舒服的姿势,很可能是最危险的。**当 loop 自己跑起来,你很容易停止发表意见,直接接受它给你的任何东西。我把这叫做认知投降。设计 loop 是解药,也可以是加速剂,带着判断去设计它,它是解药;用它来逃避思考,它是加速剂。同一个动作,完全相反的结果。
05
工程师要带着判断去设计 Loop
Build the loop. Stay the engineer. 我认为这是我们工作方式演进的一个预演。但话说回来,如果我不亲自 review 代码,或者完全依赖自动化 loop 来修复问题,产品质量就会下滑,很可能陷入一个越挖越深的恶性循环。
所以,去搭建你的 loop,但别忘了直接提示智能体仍然是有效的,关键是要找到正确的平衡。
Loop 也会因人而异,产生完全不同的结果。两个人可以搭出完全一样的 loop,却得到截然相反的结果。**一个人用它在自己深刻理解的工作上跑得更快;另一个人用它来逃避理解工作本身。**Loop 不知道这两者的区别,但你知道。
这就是为什么设计 loop 比提示词工程更难,不是更容易。Cherny 说的那句话,不是说工作变简单了,而是说杠杆点移动了。
Build the loop,但要像一个打算留在工程师位置、不只是「按下启动键的人」那样去 build 它。
传统产品经理,正在成为下个被淘汰的“传统岗位”。
过去画原型、写 PRD、跟进度的“传统技能包”,在AI时代正迅速贬值。63% 的企业转型做 AI 产品!当下的问题不再是“要不要学 AI ”,而是“如何构建 AI 产品”。
前段时间还跟字节、腾讯的资深 AI 产品经理沟通,他们反馈:在大量招人,只要有 AI 相关的项目经验,基本都能拿到面试机会,而且领导很舍得给钱,涨薪 40-60% 很正常!
01
接下来的产品人,得卷AI能力了!
如今AI大火,行业极速发展的背后,懂AI 产品人才却严重稀缺。这不是要你转技术岗,而是要掌握构建 AI 产品的核心方法:
- 如何将你的领域知识,转化为 AI 产品的核心竞争力?
- 如何用 AI 技术实现你的产品需求?
- 如何设计真正懂用户的 AI 交互体验?
- ……
懂AI,就是产品经理的“救命稻草”!
风口之下,与其焦虑被行业淘汰
不如先人一步享受AI技术带来的红利!
我把AI产品经理的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
(不限年龄!不限岗位!没有代码基础也能学!)
🎁现在扫码,完课还送:
《AI产品面试题库》《AI大模型应用案例集》
02
掌握技术+实战,快速转型!
想成为一名卓越的AI大模型产品经理,需要从技术、到项目实战的全方位转型指南!
**1)**AI产品应用原理解析,产品经理也能听懂!
对于产品经理来说,如果你不懂技术,做不了业务和AI大模型技术衔接、定义不了数据需求,是没法完整的落地一个产品的!
本次课程,专门面向产品经理人群,解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理!解析AI产品应用技术,积累大模型能力!简单易懂,不需要会代码,小白也能掌握!
- 大模型微调:掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。学习如何利用领域数据(如制造、医药、金融等)进行模型定制
- AI Agent智能体搭建:学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)
2)超全行业案例解析!
课程详细讲解现阶段,大模型在各个行业和领域的应用现状!包括:零售与电商、教育、医疗、泛娱乐、法律等等10大行业!
详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!揭秘各个行业、场景的真实现状,和未来产品的发展与机遇!
可以说,讲解完一个案例,就能积累一个AI产品实践的经验!
课程中所涉及到的实战项目,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!
3)AI产品经理求职专项辅导
课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词,掌握AI PM高频面试题型与回答框架;展示 AI 相关能力的关键技巧:Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验;
- To B类AI产品经理:突出“行业理解 + 技术落地 + 商业闭环”能力的简历结构设计,展示项目成果;从客户需求洞察到技术方案设计,展现端到产品思维;如何评估To B AI产品的可行性、客户付费意愿与实施成本
- To C类AI产品经理:拆解头部公司岗位JD,将过往尽力转化为AI产品叙事逻辑;从行业趋势、产品设计题、案例分析&数据分析题、技术理解边界等全流程辅导面试;避免无效海投、锁定最适合的AI产品岗位;
03
本次课程,全程直播讲解,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!
完课后,还赠送《AI产品经理面试题库》、《AI大模型应用案例集》!不断更新中……
适合人群:
- 想转型AI产品经理、AI项目管理专家、AI产品解决方案等岗位
- 想进行AI产品创业的创业者
- 想成为制作AI产品的程序员
- 想利用AI解决企业问题的管理岗
- 想在AI方向寻找就业方向的毕业生
- AI方向前景广阔、待遇好!
目前,很多产品人已经通过完整学习拿到大厂高薪offer,收入嗷嗷涨!
我把AI产品经理的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
