当前位置：首页 > news >正文

《Getting the most out of Codex》动手打了所有 Prompt 大师的脸

news 2026/5/29 23:22:53

最近 OpenAI 在开发者网站发了一篇文章，叫《Getting the most out of Codex》。翻译过来就是“怎么把 Codex 用出花来”。

你可能会想，这不就是又一篇 Prompt 教程吗。告诉你十个万能提示词模板，然后标题写“让 AI 效率提升 1000%”，评论区全是“已收藏，下次一定看”。

不是。

这篇文章压根没教你怎么写 Prompt。

它甚至暗示了一件很反直觉的事 —— 你的 Codex 不好用，问题可能不在 AI。

你以为是 Prompt 不行，其实是仓库在拖后腿

先讲个场景。

你打开 Codex，输入：帮我修一下这个 xxxx 的 bug。

它改了三行代码，确实把 bug 修了。但同时把隔壁模块的接口改了，还顺手升级了一个你不打算动的依赖。

你血压上来了。

你开始怀疑：是不是我 Prompt 写得不够好？是不是要加“请谨慎修改”这种话？

不是。

你让一个人修水管，如果没告诉他总闸在哪、墙里有没有电线、楼下邻居会不会漏水——他能干好才见鬼了。

Codex 也是同一个道理。

它差的那点东西，不是推理能力，是工作条件。

这就是 OpenAI 这篇文章真正想说的：Codex 的上限，不取决于你单次 Prompt 写得多漂亮，而取决于你的仓库有没有给它一个可执行的工程环境。

坏 Prompt 与好工程环境的对比

这句话值钱。我们拆开说。

Prompt 不是咒语，别念了

过去一年半，整个 AI 社区都在造一个神话：只要 Prompt 写得好，AI 什么都能干。

于是涌现出一批 Prompt 大师，卖课、卖模板、卖“提示词工程”认证。

离谱。

Prompt 这个词，翻译成中文是“提示词”，听起来特别像一句口诀。好像你念对了，AI 就开悟了。

但 OpenAI 这篇文章从头到尾没教你怎么“念口诀”。它反复强调的是一个结构：

1. 你要什么（目标）
2. 相关的代码在哪、业务逻辑是什么（上下文）
3. 什么不能碰（约束）
4. 怎么才算做完了（完成标准）

这四件事，缺一不可。

Codex 任务合同四要素

但大多数人只说了第一件事。剩下的，全靠 AI 猜。

猜对了，惊喜。猜错了，骂一句 AI 垃圾。

这跟你把实习生关小黑屋里、不给任务说明书、不让他问问题、完了骂他能力差，有什么区别？

模糊 Prompt 让 Codex 猜需求；写清楚的 Prompt 让 Codex 执行工单。

你缺的不是更华丽的措辞，是一个稳定的任务结构。

第三次犯的错，不该还留在聊天框里

Codex 有个很容易被忽视的功能，叫 AGENTS.md。

简单说，你在项目根目录放一个 Markdown 文件，里面写好这个仓库怎么构建、怎么跑测试、哪些目录不能改、用什么包管理器、PR 要怎么写。

然后每次 Codex 进入这个仓库，它都会先读一遍。

这个东西有多重要呢？我给你算一笔账。

你第一次告诉 Codex：“别用 npm，用 pnpm”。它记住了。

第二次换了个会话，你又得说一遍。

第三次，你烦了。但你还是说了。

第四次，你忘了说。它用 npm 装了一堆包，把 lock 文件搞乱了。

你骂它蠢。

但真正蠢的，是“一件事说了三次还没写进规则”这件事本身。

重复三次的提示词，不该继续留在聊天框里。它应该进 AGENTS.md，成为仓库的一部分。

重复规则进入 AGENTS.md

AGENTS.md 的价值不在于“文档做得好”，而在于把一次性经验变成长期资产。

你今天调教 Codex 花的时间，明天、后天、下个月，团队成员都能复用。

这才是从“个人技巧”到“团队能力”的第一步。

你的配置，决定了 Codex 是员工还是野人

大部分人的 Codex 是裸奔的。

沙箱没开、审批没配、MCP 也没接。AI 进了仓库，权限全开，爱干什么干什么。

你怕不怕？

说实话，第一次看 Codex 自动删文件的时候，我心脏停了一拍。

但 OpenAI 的解决思路不是“收紧一切”。它给你的是一套控制面——

•沙箱：画一块施工区。AI 只能在这块区域里读文件、改文件。出了这个范围，碰都不能碰。
•审批策略：某些命令自动跑，某些命令必须先弹窗让你确认。比如删文件、连网络、访问数据库。
•推理强度：简单任务用快模式，省钱省时间；复杂重构切深度模式，虽然慢但靠谱。
•Worktree：Git 的独立工作区。你可以同时让一个 Codex 修 bug、另一个 Codex 写测试、第三个做重构，每人一个独立目录，互不打架。

Codex 配置控制面

这不是束缚。

配置不是为了束缚 Codex，而是为了让它能放心工作。

你把边界划清楚，AI 才敢在边界里大胆冲。边界模糊的时候，它要么畏手畏脚，要么胡乱越界。两种结果，你都不想要。

Codex 最危险的一句话：“我已经做完了”

AI 编程最让人心里发毛的时刻，不是报错。

是它自信满满地告诉你“搞定了”，然后你一看——改了 300 行代码，完全不管测试能不能跑，类型检查全红，还把另一个模块的接口给改了。

它真的觉得自己搞定了。

因为它没有验证意识。对它来说，“写了代码”就等于“完成了任务”。

但我们都知道，写完代码和交付代码之间，还隔着测试、lint、类型检查、code review、人工确认。

OpenAI 这篇文章的价值，在于它告诉你一件很重要的事：

不要让 AI 自己判断“做没做完”。让工程系统来判断。

具体怎么做？

让 Codex 写完代码后，自己跑一遍测试。测试挂了，让它看报错日志，自己修。

修完再跑。跑过了，让它自己看 diff，确认改动范围没有越界。

最后再走 PR 流程，让人类 review。

这叫什么？闭环。

一个健康的 Codex 流程，不是“AI 写代码，人检查”。而是“AI 写代码、跑测试、看 diff、修失败、再跑测试、再给人看”。

Codex 工程闭环

每一步失败输出，都变成下一轮的输入。

让 Codex 可靠的，不是它说话多谨慎，而是它逃不过测试和编译器。

这是我用 Codex 一年来最重要的认知：

低阶用法，是让 AI 吐代码，你凭感觉复制。

高阶用法，是让 AI 进入你的工程流水线，让测试、lint、类型检查、review 和审批一起约束它。

AI 的价值，是更快地跑完工程流程。

MCP、Skills、Automations：这三样东西，决定了你是不是在用“玩具”

前面说的是怎么让单次任务靠谱。

但如果你想让 Codex 从一个“聊一下”的工具，变成团队基础设施，还有三个东西绕不开。

MCP、Skills、Automations。

三个东西很容易搞混。我用一句话说清楚：

•MCP：让 Codex 能连外部工具。浏览器、数据库、GitHub、日历、内部系统——接上之后，AI 能干的事指数级增长。
•Skills：把重复任务封装成可复用的流程。比如“从一段会议纪要生成 PR 标题”“把 API 变更同步成文档”——一次写好，以后直接触发。
•Automations：定时任务。每天早上汇总未处理的 issue，每周检查依赖升级风险，每半小时回去跟进上次没做完的线程。

这三样合起来，Codex 就不只是一个“你问一句它答一句”的东西了。

MCP 给 Codex 手和眼睛。Skills 给它工作方法。Automations 给它时间表。

三样都配齐，你拥有的不是一个助手，而是一个能运行的工程代理系统。

如果你现在打开 Codex，先干这五件事

我知道，看完这篇文章你可能觉得，搞这么复杂，我还是回去手写代码吧。

别! 不需要一步到位。

真正有效的第一步，是把最容易重复、最容易出错、最容易验证的部分先标准化。

五件事，按顺序来：

第一，花 10 分钟写一个 AGENTS.md。

不要写长篇大论。就写：项目结构长什么样、怎么安装、怎么跑测试、怎么跑 lint、哪些目录是自动生成的不准改。这 10 分钟，未来会省你 100 个小时。

第二，每一次给 Codex 任务，都用同一个模板。

目标、上下文、约束、完成标准。这四个字段，缺一个都不发。养成习惯比写多华丽都重要。

第三，把检查命令写清楚，让它自己跑。

你的项目有测试吗？有类型检查吗？有 lint 吗？如果有，告诉 Codex 命令是什么，让它改完代码自己跑一遍。不要让 AI 在黑暗里写代码。

第四，重复三次以上的操作，封装成 Skill。

每次发版都要写 release note？每次都让你整理调研资料？每次都让 Codex 先搜仓库再改？这些都不该靠记忆。写一个 Skill 文件，放仓库里。下次直接用。

第五，开权限之前先想明白边界。

MCP 能连数据库，能连浏览器，能连你的 GitHub 账号。但连上之前，问自己一句：这个任务真的需要全权限吗？能不能先只给只读？能不能先连测试环境？

最小权限。这是用 MCP 的唯一铁律。

最后说一句掏心窝子的

很多人问我：为什么我用 Codex 感觉时灵时不灵？

我以前也会回答“换个 Prompt 试试”, “试试别的模型”。

但我现在越来越确定一个答案：

Codex 好不好用的天花板，从来不在模型本身，而在你的工程系统有没有准备好接待一个 AI 同事。

你不会让一个新入职的同事不看文档直接上手干。你不会让他没跑测试就合并代码。你不会把生产数据库密码贴在墙上。

那你凭什么给 AI 通着权限、不写规则、不加验证，然后指望它每次都精准命中？

OpenAI 这篇文章最狠的地方，不是教会你什么新技巧。

而是逼你面对一个事实——

真正会用 Codex 的团队，不是在训练模型。他们是在训练自己的工程系统。

你的仓库越来越会“接住 AI”，而不是让 AI 自己瞎摸索。

这个差别，决定你是在玩一个酷炫的聊天框，还是在建一条可靠的工程流水线。

共勉。

参考来源：- OpenAI Developers, Getting the most out of Codex- OpenAI Developers, Prompting Codex- OpenAI Developers, AGENTS.md- OpenAI Developers, Codex MCP/Skills/Automations/Worktrees 相关文档

查看全文

http://www.gsyq.cn/news/1423914.html