为什么说 Agent 时代已经来了?Codex 正在改变程序员的工作方式
来自:
推荐一个程序员编程资料站:
http://cxyroad.com
副业赚钱专栏:https://xbt100.top
2024年IDEA最新激活方法
后台回复:激活码
CSDN免登录复制代码插件下载:
CSDN复制插件
以下是正文。
我是小路。
最近认真读了一篇来自 Codex 团队的长文分享,看完之后我最大的感受是:
很多人还把 AI Agent 当成一个高级代码补全工具,但 OpenAI 想做的,已经不是帮你写函数了,而是想把它变成一个真正能长期协作的数字同事。
以前大家理解的 Agent,大多还是:
你给一个 prompt,它返回一段代码;
你让它改 bug,它吐一个 diff;
你让它写 PR,它帮你生成提交内容。
本质上还是一次性调用。
但 Codex 现在明显在往另一个方向演化:长期线程、外部记忆、自动执行、目标驱动、多工具协同。
它已经越来越不像一个聊天机器人,而像一个长期在线的执行系统。
01 | 过去的 AI 是函数,现在的 Agent 更像同事
以前我们调用 AI,其实很像调用函数:
输入 prompt;
等待结果;
上下文结束;
下次重新开始。
所以很多人会发现一个问题:
AI 明明刚刚还懂你的项目,聊久了之后突然失忆了。
原因其实很简单。
因为旧模式里,对话只是临时上下文,不是真正的工作空间。
但 Codex 现在引入了持久线程这个概念。
一个 Thread 不再是一次聊天,而是一个长期存在的工作区。
比如你可以长期维护:
一个发布线程;
一个架构评审线程;
一个日报线程;
一个监控线程;
甚至一个专门帮你整理 Slack 和 Gmail 的线程。
这件事特别像什么?
像你在团队里养不同角色的员工。
有的人负责发版;
有的人负责 review;
有的人负责同步信息;
有的人负责监控线上。
线程开始拥有角色感,而不是一次性会话。
这一点我自己感触特别深。
现在我用 Agent 最大的问题,其实不是能力不够,而是任务会散落在不同窗口里。
今天聊一点;
明天改一点;
后天重新开线程。
最后上下文碎了一地。
持久线程本质上是在解决:
AI 如何拥有连续工作能力。
02 | Steering 和 Queuing,才是真正的人机协作
这篇文章里我最喜欢的一个点,是它把用户和 Agent 的关系重新定义了。
以前很多人幻想的是:
AI 自动干活,人类躺着等结果。
但现实不是这样。
真正高效的人机协作,更像带新人。
你不会一句话丢过去就彻底不管。
而是:
中途纠偏;
随时调整;
临时追加任务;
阶段性 review。
Codex 里面有两个特别重要的能力:
Steering
Queuing
Steering 本质上是:
正在执行的时候直接打断。
比如:
这个按钮太大了;
间距不对;
这个方案跑偏了;
先别做这个,优先处理另外一个。
它特别像你站在员工旁边实时纠偏。
而 Queuing 则是:
当前任务结束后,继续做下一件事。
比如:
等测试结束后,把结果发 Slack;
做完预览后,通知产品;
生成文档后,再自动开 PR。
这个设计其实特别关键。
因为它意味着:
Agent 不再只是执行命令,而是开始进入任务流。
以前 AI 是:
问一句,答一句。
现在开始变成:
一个持续推进的工作过程。
我现在自己用 Goal 功能的时候,经常会配合 Steering。
原因很简单。
Agent 最大的问题从来不是不会干活,而是容易漂移。
你必须周期性让它汇报:
当前计划;
执行状态;
偏离情况;
下一步目标。
这和管理真实团队几乎没区别。
03 | 真正的突破,不是写代码,而是接管整个工作流
很多人还以为 Codex 只是个写代码工具。
但实际上,它已经开始接管整个电脑工作流。
现在它能做的事情已经越来越离谱:
浏览网页;
操作浏览器;
控制桌面 GUI;
调用 API;
连接 Slack;
连接 Gmail;
连接 Calendar;
操作 MCP Server;
执行自动化流程。
重点是:
这些能力不是孤立存在的。
而是开始串起来了。
比如:
Slack 收到需求;
Agent 自动分析;
去仓库改代码;
跑测试;
生成文档;
打开浏览器检查页面;
最后通知评审。
整个链路已经闭环了。
这时候你会发现:
代码只是中间媒介。
真正被重构的是整个数字工作流。
这一点其实特别重要。
因为很多公司的大量工作,本来就不是纯写代码。
真正耗时间的是:
找资料;
翻聊天记录;
整理上下文;
查历史决定;
同步状态;
做 review;
来回沟通。
而这些东西,现在正在逐步被 Agent 吃掉。
04 | Automation 本质上是让 Agent 长期在线
Automation 很多人第一反应是:
不就是定时任务吗?
但实际上它和传统 cron 差别非常大。
传统定时任务是:
固定脚本;
固定输入;
固定输出。
但 Thread Automation 不一样。
它是:
周期性唤醒一个有长期记忆的 Agent。
这件事的意义巨大。
因为它意味着:
Agent 开始具备持续推进能力。
比如:
每 30 分钟检查 Slack;
自动整理未回复消息;
分析优先级;
草拟回复;
监控 PR 评论;
跟踪文档反馈;
持续等待某个条件达成。
这已经不是脚本了。
而是一个长期在线的执行者。
尤其是:
它拥有上下文。
这一点和传统自动化完全不是一个量级。
以前自动化系统最大的痛点是:
没有记忆。
所以每次都得重新输入上下文。
但现在:
线程本身就是上下文。
05 | Goal 才是 Agent 能不能落地的关键
我特别认同原文里关于 Goal 的一句话:
没有验证器的目标,本质上只是愿望。
这一句其实直接点中了 Agent 最大的问题。
很多人觉得:
AI 不够聪明;
模型不够强;
推理不够好。
但实际上很多时候问题根本不在能力。
而在于:
没有明确终点。
比如:
帮我优化代码。
这句话其实没法验证。
什么叫优化完成?
快了多少?
减少多少内存?
通过哪些测试?
有没有副作用?
如果没有验证器,Agent 很容易无限漂移。
所以现在真正好用的 Goal,一定都有:
测试集;
benchmark;
验收标准;
端到端流程;
bug 复现;
指标约束。
比如:
把 Python 服务迁移到 Rust。
这个目标听起来很大。
但如果你的验证器是:
所有单元测试通过。
那整个任务突然就清晰了。
因为 Agent 能不断验证:
自己是不是在靠近终点。
这一点其实已经特别像自动驾驶了。
没有导航系统;
没有终点;
没有实时反馈。
再强的模型也会迷路。
06 | Shared Memory 才是整个系统真正的承重墙
整篇文章里,我觉得最重要的一部分,其实反而被放在了后面。
共享记忆。
因为前面所有能力:
持久线程;
自动化;
Goal;
浏览器控制;
桌面控制。
本质上都依赖一件事:
长期上下文不能丢。
只要上下文还只存在聊天记录里,所谓长期线程其实就是假的。
线程一长,必然崩。
所以现在所有 Agent 最后都在收敛到同一个方案:
外部记忆。
Codex 用 Vault;
Claude 用 CLAUDE.md;
很多 Agent 用 AGENTS.md;
本质都一样。
就是:
纯文本文件 + 可持久维护 + Version Control。
为什么一定是纯文本?
因为:
可读;
可改;
可迁移;
可同步;
可审计;
可长期保存。
这一点其实特别像程序员为什么爱 Markdown。
因为:
它不会被平台绑死。
你会发现:
真正重要的长期上下文,其实不是代码。
而是:
谁做了什么;
为什么这么做;
有哪些坑;
哪些决策已经定了;
哪些问题还没解决;
哪些人需要跟进。
这些东西以前都散落在:
聊天记录;
会议;
脑子里;
Slack;
邮件;
临时文档。
现在 Agent 开始尝试把这些东西结构化沉淀。
而这件事,可能比写代码本身还重要。
07 | Agent 时代,最重要的能力已经变了
以前大家拼的是:
谁写代码快;
谁 API 熟;
谁框架懂得多。
但未来可能越来越变成:
谁更会定义目标;
谁更会设计验证器;
谁更会管理上下文;
谁更会组织长期记忆;
谁更会拆解工作流。
因为 Agent 的能力已经足够强了。
真正限制它的,开始变成:
人类是否能把任务定义清楚。
现在越来越像:
你不是在操作工具。
而是在管理一个数字团队。
Steering 是实时纠偏;
Queuing 是安排下一步;
Automation 是持续在线;
Goal 是验收标准;
Vault 是长期记忆。
整个体系,其实已经非常像组织管理。
而且我越来越觉得:
未来真正重要的,可能不是谁会用哪个模型。
而是谁能构建自己的长期上下文系统。
因为模型会越来越强。
但你的:
知识库;
工作流;
记忆体系;
验证机制;
项目沉淀。
这些才是真正属于你的东西。
<END>
推荐阅读:
副业赚钱推荐:让你的时间开始变现!
免费体验AI图片生成,就在 Image Generator Hub!
程序员在线工具站:cxytools.com 推荐一个自己写的工具站:https://cxytools.com,专为程序员设计,包括时间日期、 JSON处理、SQL格式化、随机字符串生成、UUID生成、文本Hash...等功能,提升开发效 率。 ⬇戳阅读原文直达! 朕已阅
