当前位置：首页 > news >正文

2026 年我作为资深工程师如何使用 LLM Agent：从副驾到主驾的真实工作流转变

news 2026/7/6 4:58:14

从副驾到主驾2026 年资深工程师的 LLM Agent 实战工作流哪些交给 Agent哪些必须自己做。原文链接AI 小老六一年之差Agent 从「勉强能用」变成了「几乎离不开」2025 年初行业里最强的推理模型还是 OpenAI o1Agent 大多数时候只能跑两步就被上下文压垮。一年多过去我使用 LLM 的方式已经发生了根本性的变化。去年我还主要用 LLM 做「智能补全」、「一次性研究脚本」、「陌生领域的小修小补」今年我几乎每一次代码改动都会先从 Agent 起手PR 也经常由 Agent 起草、人工把关一遍后再提交。这个转变不是「工具更顺手了」那么简单它意味着工程师的工作位置被推向了上游 —— 从写代码的人变成了判断、调度与验收 Agent 的人。下面这张表是我对自己使用边界变化的整理它比任何宏大叙事都更能说明 2026 年 Agent 的实际渗透程度工作类型2025 年的做法2026 年的做法熟悉领域的完整 PR不交给 LLM自己写全部由 Agent 起草编辑一遍后提交跨仓库改动多个 VSCode 窗口手动协调Copilot CLI / Copilot App 同时跑多个 Agent 会话Bug 排查偶尔丢给 LLM 试一试每个 Bug 都先开 Agent 会话约 80% 能直接定位大型代码库的研究自己读代码、问同事Agent 跨仓库检索错了也容易看出来测试 / 本地环境配置让 LLM 写 curl 脚本自己跑直接交给 Agent 跑看日志PR 描述 / ADR / Slack自己写仍然自己写极琐碎 PR 除外博客文章自己写LLM 校对自己写LLM 校对UI 测试自己测仍然自己测Agent 对视觉细节不敏感图从副驾到主驾 —— 写代码这件事不再是工程师亲自完成而是由我来判断、调度和验收 AgentAgent 真正变好的几个信号这种「变好」具体体现在三件事上失败后能自我恢复早期 Agent 一旦走偏就需要人工随时干预、暂停、重新引导现在的 Agent 推进速度过快其实很难、也没必要逐步盯着因为它大多数时候能自己把方向修正回来。跨仓库视野带来的诊断能力当 Agent 能同时看到多个仓库时它在排查 Bug 上的「信息半径」远远超过人类点开 IDE 一个窗口能覆盖的范围。试错成本变得很低我经常会让 Agent 跑 56 次全部拒绝再让它重来平均每次只需要 30 秒判断「这是不是我要的方向」。这种「高频拒绝偶尔接受」的工作模式是 2025 年完全不可能的。但我也不会把 Agent 抬上神坛。最近我遇到一个棘手 Bug前后跑了十几次 Agent 会话才最终定位。期间真正起作用的不只是 Agent 本身还有我不断补充上下文和收窄搜索空间的过程从日志、Slack 中收集额外上下文再喂给 Agent在脑子里建立自己的故障模型自己搭一个独立的复现环境看到 Agent 的猜测不对明确告诉它「你的假设不成立因为 X」或者直接终止、带着新提示重启。最终虽然是 Agent 找出了 Bug但这次「破案」我仍然会算作自己的工作成果 —— 因为正是我把搜索空间收窄到了 Agent 能够解决的范围。这也是我现在越来越确定的一点人类的专业判断依然是 Agent 调试体系里的真正稀缺资源。图30 秒拒绝持续收窄搜索空间是工程师在 Agent 时代真正稀缺的能力一个清晰的「交还是不交」分配原则我现在会用一个简单的决策流程来判断一项工作该不该交给 Agent图Agent 工作分配决策流程 —— 哪些工作可以放心交给 Agent哪些必须自己来这套流程背后的真正信号是工程师对外的「署名性产物」必须自己写。亲手写 PR 描述是在向 Reviewer 传递一个信号「我已经认真审过这次改动你不是第一个看 diff 的人。」把测试和琐事尽量塞给 Agent另一个很重要的变化是测试代码现在是廉价的。只要能避免 flaky我都会顺手让 Agent 把测试补上单测可以让 Agent 先写我做的是「挑明显错误」的快速复审集成测试也可以主动让 Agent 加跑通一次手动验证curl / 接口调用可以直接交给 Agent自己看日志即可。类似地本地环境出问题 —— 比如 nvm 切不过去 Node 版本 —— 我也不会再第一时间去 Google而是直接打开命令行 Agent让它自己运行命令排查、修好。这件事的本质是Agent 已经替代了「在终端里查文档试错」这一类高频低价值劳动。图把跑测试、查日志、捣鼓本地环境这类高频低价值劳动尽量交给 Agent真正的新核心技能找到「不过度也不欠用」的那个平衡如果要用一句话概括当下最重要的 AI 使用能力我会这样说把尽可能多的工作转交给 Agent但不要走过头。我观察到很多团队成员其实处于两种失衡状态之一欠使用不让 Agent 调 Bug、不让它跑测试、连最琐碎的脚手架任务也要自己写过度使用把对外沟通、需要细致评审的大改动也整段交给 Agent事实上把判断责任也外包了。这两种失衡都在浪费 Agent 时代真正的杠杆。今天的工程师价值正在从「我能不能写出来」转向「我知不知道哪些工作必须自己做、哪些可以稳妥地交出去」。换句话说Agent 让「会判断」比「会写代码」更值钱。给国内工程师的几点直接借鉴把这套经验落到日常研发场景里至少有几条是可以马上试的每个 Bug 都先开一次 Agent 会话哪怕只是为了快速排除最常见的 80% 问题也比直接埋头读栈要划算得多。跨仓库探索优先用 Agent让它在多个仓库里「读一遍」再告诉你某个调用链是怎么打通的比自己点开五六个 IDE 窗口高效太多。测试覆盖率不再是奢侈品既然 Agent 写测试几乎零成本那「要不要补这条测试」的犹豫就没必要再有。PR 描述、设计文档、群里的关键沟通仍然要自己写这是你在团队里建立信任和判断力的方式不要把这部分外包。训练自己「30 秒拒绝」的肌肉看 Agent 输出第一眼就要判断方向对不对错了立刻拒掉重来不要被它的流畅度带着走。Agent 已经从一个值得「试一试」的玩具变成了每天要打开几十次的主战工具。但工具越强越要警惕一件事 —— 真正稀缺的不是会用 Agent 的人而是能在 Agent 面前保持判断力的人。

查看全文

http://www.gsyq.cn/news/1328282.html