当前位置: 首页 > news >正文

Agent 开发困境:构建已经免费,但验证还是地狱

1. Agent 开发的真实困境

我在做 Agent 项目时,有一个越来越真实的痛点:

一个挺大的功能,Coding Agent 几个小时就写完了。有 spec、有代码、有单测,有效果截图。代码跑起来,看着像模像样——结构清晰、命名规范,CI/CD 都能通过,核心流程也都没问题。

然后,噩梦开始了。

我得去验收它:把它能走的路一条条走完,把它该守的边界一个个试过,把它可能崩的角落一处处抠出来。最要命的是,哪怕我吭哧吭哧验上一两天,心里依然没底——那些我根本没想到的情况,它真的扛得住吗?而恰恰是这些没被想到的角落,才是日后线上事故的源头。

最后的账单,往往是这样的:

AI 写它,只要几个小时;我验它,要花上一两天。而一两天之后,我依然不敢拍胸脯说它是对的。

写得飞快,验得要死。作为一个自认为比较 AI Native 的团队,我认为这不是我们独有的问题,而可能是行业的普遍困境。

2. 大家都在想"怎么做",却没人管"怎么验"

你有没有发现,这几年我们折腾的所有"工程",其实是一条不断往上爬的阶梯——

  • 先是Prompt Engineering:研究怎么把话跟模型说对;

  • 然后是Context Engineering:琢磨每一步应该把哪些正确的信息喂给模型;

  • 再然后是Harness Engineering:想着怎么给它装个合适的环境,配上趁手的工具;

  • 最近最火的是Loop Engineering:干脆别一句句喂了,写个循环,让 Agent 自己跑、自己推进、遇到问题自己想办法解决,最后交付个结果。

这四个阶段,是一个持续利用模型智能的提升、并把人类价值不断上移的过程,但是它们本质上全是在解决同一件事——怎么让它跑得更好、更自动。

却没有任何一级,认真回答过那个最朴素、也最要命的问题:

它跑完了,跑的挺快,看着还行,但是我怎么知道它到底做的对不对、好不好?

这个一直被我们用"人肉盯着看"糊弄过去的窟窿,今天基本变成了 Agent 开发的主要矛盾,请允许我效仿硅谷的风格也造个词 ———

Verification Engineering 验证工程

(叫啥名不重要,意思大家懂的都懂~)。

接下来的内容,就是我想好好聊一聊,为什么我觉得 Verification 这个重要,以及我认为的 Verification Engineering 应该长什么样。

3. 这不就是 Evaluation 吗?

我猜你大概率会立刻皱眉:"你说的 verification,不就是现在满大街的 eval / evaluation / observability / tracing 那一套吗?LangSmith、Langfuse 们早做了。"

这个问题我自己也纠结过很久。最后我的判断是:

verification 包含 evaluation,但它是一个更高维的视角。

evaluation 关心的,是"术"层面的事:怎么评估模型和 Agent 的性能、怎么追踪每一步发生了什么、怎么把整个过程的可观测性做扎实。这些都极其重要,是地基,缺了它寸步难行。

但 verification 关心的,是一个更要命的问题:"对"到底是什么?

  • evaluation 告诉你:它做了什么、性能如何——成功率 87%、P95 延迟 2.1 秒、这一步调了哪个工具,从哪里取了 Memory。

  • verification 要尝试回答:它做出来的这个东西,是不是我想要的那个"好东西"。

区别在哪?前者可以外包给一套工具和指标;后者外包不掉。因为"什么算好"这个标准的源头,是一个 builder 对产品的审美

所以我更愿意这么说:

evaluation 是测量,verification 是判断。测量可以被标准化,判断是一种品味的表达。

一个再牛的 eval 平台,能精确告诉你"成功率多少、延迟多少、哪一步用了什么工具",但它永远替你回答不了那句真正要命的话——"这东西做出来,到底 UI 好不好看,功能好不好用,是不是我心里真正想要的那个版本?"

这就是为什么我说 Verification Engineering 站得更高:它把 evaluation、tracing、observability 这些"看得清"的能力当底座,然后在上面架起那层真正稀缺的东西——

把一个 builder 的产品审美,工程化、规模化地表达出来,让机器替你反复执行这种判断。

记住这一层。后面所有的话,都会绕回到它。

4. Verifier is the bottleneck

我们都幻想过那个画面:一个 Agent,不用你守着,自己就把活儿干了。

但你冷静想一句话——

一个 loop 真正有价值,当且仅当它能脱离你自主运行;而它能脱离你,又当且仅当它自己能判断:什么时候算做完、什么时候算通过、什么时候算失败、以及失败了该怎么修。

这个做判断的角色,就是verifier(验证者)

道理其实挺糙:一个 loop 跑得再花哨,只要背后没有一个你信得过的 verifier,你就还得乖乖坐回屏幕前盯着——那它压根没把你解放出来。所以我现在越来越确信:

Loop 真正的瓶颈,从来不是"怎么跑起来",而是"怎么判断对不对"。Verifier is the bottleneck。

而这里头,藏着一个特别残酷的不对称:

  • 少数任务,验证比生成便宜——测试通过、CI 变绿、编译器接受,干脆利落的 0 和 1。这种叫"可验证目标",loop 在这儿如鱼得水。

  • 大多数真正有价值的工作,验证和生成一样难,甚至更难:这个产品策略好不好?这次重构真的更干净吗?这个页面,用户点进来会不会觉得别扭?

这些问题,你没法塞进一个单元测试里。

所以 Loop 工程真正难啃的骨头,根本不是把循环搭起来,而是怎么"造"出可验证性——怎么把一个模糊的目标,翻译成机器能自己检查的标准。一句话:

Loop 真正的约束从来不是模型能力,而是人类在输出边界上的"验证带宽"。

Claude Code 一晚上能给你提 20 个 PR,发 3 个产品版本,但你 review 不完。瓶颈不在它那头,在你这头。说白了——你,不 scale !!!

5. 残酷的"可验证定律":为什么 Coding 已经大结局

顺着这个逻辑往下推,我想起了业界比较共识的可验证定律

一项能力会不会先被 AI 攻克,取决于它的"验证成本"有多低。

为什么 Coding 是第一个走到大结局的赛道?因为它把"可验证"的三大要素全占齐了:

  • 海量训练数据

    ——全世界的开源代码摆在那儿,且非常结构化,好采集好清洗;

  • 完美的运行环境

    ——编译器、测试、CI,一个能一键判对错的真实世界;

  • 完善的评估指标

    ——测试通过率、各种 benchmark。

于是,一旦像 Anthropic 这样的玩家把飞轮转起来——生成 → 用真实环境验证 → 拿验证结果再训练 → 模型更强 → 用的人更多 → 数据更多——这轮子越转越快,后来者几乎找不到弯道超车的机会。

所以 Coding 赛道已经大结局了,接下来我们应该 bet on what?

6. 把验证成本打下来

如果可验证定律成立,下一波机会就是名牌了:

哪里的验证还很贵,哪里就是下一个战场。而最后赢的人,不是把模型做得更聪明的人,是把"验证成本"打下来的人。

可前面说过,那些最值钱的东西——产品好不好、UI 对不对、体验顺不顺——根本塞不进一个单元测试。这种"品味级"的判断,传统手段够都够不着。

那怎么办?我的设想是:让 verifier 成为你产品的原生用户,直接住到产品里去玩它。

所以也许我们需要考虑重新捡起这些技术:

  • Browser-Use(for Web)

  • Mobile-Use(for App)

  • Computer-Use(for PC/Client)

有了它们,verifier 就不再是隔着代码"指指点点",而是能像一个真实用户那样,亲手打开你的产品,一步步点下去,亲眼看到结果长什么样。

我心里那个产品的样子,是这样的:

让一个 verifier 住进你的 Agent 里,成为一个常驻的"资深 Pro 用户"。

它不知疲倦,天天用你的产品,像最挑剔的老用户那样验收每一个新功能,持续告诉你:这儿的流程断了、点完这个 button 页面崩了、新版 UI 不如以前的风格好、甚至——你这回的改动,其实让产品变差了

它干的事,本质上就是把第三节那个"外包不掉"的难题,第一次撬开了一道缝:把"对产品品味的验收"——这件最贵、最依赖人、最不可能标准化的事——变得可以规模化。

7. 别追求 day 1 就完美,能让验收"没那么痛"就值钱

我猜你又要反驳了:"品味、体验这种东西,怎么可能完全自动验证?"

对,完全做不到。但这恰恰是我最想强调的一点:

你根本不需要 day 1 就实现端到端的完美验证。

验证从来不是一个"全有或全无"的开关,它是一条成本曲线

如果你今天能把验收一个功能的时间,从两天压到半天;能把"我盯着屏幕一个个点 case"的 80% 交给那个住在 Agent 里的 Pro 用户,只留最后 20% 给我拍板——这就已经是天大的价值了。

在这条曲线上每往下挪一格,都是真金白银的杠杆。别被"做不到完美"吓退,先去做"让它没那么痛"。

8. 尾声:一场把人逼向纯粹品味的撤退

回头看这条阶梯:Prompt 工程化了"怎么说",Loop 工程化了"怎么跑",而 Verification 要工程化的,是"什么算对"。

当 AI 把"做出来"这件事变得几乎免费,人类手里其实只剩下最后一件外包不掉的事:判断什么是好的,什么是值得的。也就是—— Taste。

所以 Verification Engineering 最终极的样子,绝不是用更多测试去把 AI 框死,而是想办法把"人的品味"也变得可以规模化地施加给机器。而 Browser / Mobile / Computer-Use 这些"手和眼",就是让品味能下沉、能落地、能被一个 verifier 反复执行的那条通道。

这是一场漫长的撤退,也是一次彻底的解放:我们终将从"逐行验收"里抽身,最终人的最大价值就是——决定什么值得做;而把"它到底做对了没有"这件苦差事,交给一个住在 Agent 里、比你还挑剔的资深用户。

构建,已经免费了。

下一阶段,看谁能把验证变得越来越容易吧~

http://www.gsyq.cn/news/1606160.html

相关文章:

  • OpCore-Simplify:3步完成黑苹果配置的终极简化方案
  • EPLAN Electric P8 2.9 批量编辑插件套装|设备改号+功能文本+页名+端子+连接点+中断点+文本|支持 Excel 导入导出
  • SSRF漏洞实战:从原理到防御的深度解析与渗透测试指南
  • 掌握开源工具:实现极域电子教室限制的高效解除方案
  • iOS自动化测试基石:WebDriverAgent架构、部署与Appium集成实战
  • 通义千问发布语言世界模型,ChatGPT领跑2026AI平台
  • 接入大模型很快,真正麻烦的是接入之后
  • 验证码逆向工程实战:从旋转与点选验证码到自动化识别方案
  • Fillinger智能填充脚本高效自动化解决方案
  • 【有奖调研】征集 AI 编程工具使用反馈,填写问卷领取Credits!
  • 深入WebDriverAgent源码:揭秘iOS自动化测试底层原理与实战调试
  • 超轻滑漂竿哪个公司好
  • 最新豆包九宫格验证码识别代码
  • MSP430硬件乘法器MPY32:嵌入式实时信号处理的数学加速引擎
  • ​​128. 最长连续序列​​
  • 计算机毕业设计之基于深度学习的农作物病虫害识别系统
  • 供应链实战复盘:学习 SCMP 后,打通企业跨部门协同、库存、数字化三大难题
  • 5个理由告诉你为什么需要网页存档浏览器扩展
  • 事件驱动架构:高并发异步业务的专属架构
  • Obsidian插件汉化终极指南:零代码实现全界面中文的简单方法
  • 终极网页存档指南:使用Wayback Machine浏览器扩展永久保存网络记忆
  • 单基三通道SAR-GMTI原理
  • Mythos:大模型长程逻辑推演与反事实约束生成技术解析
  • 基于Next.js与AI Agent的网站克隆工具:从原理到部署实战
  • 月薪50K!AI大模型风口已至,普通人如何抓住这波红利?
  • 高密度算力供电设备主流厂商产品及参数深度解析
  • Java毕设选题推荐:基于 SpringBoot+Vue 的戏曲文化宣传推广系统设计与实现 数字化戏曲文化传承与传播平台的设计与开发【附源码、mysql、文档、调试+代码讲解+全bao等】
  • ChatGPT语音交互冷启动难题破解:首帧响应<800ms的4步极简优化法(含VAD灵敏度黄金阈值、LLM streaming token buffer size计算公式、GPU显存占用压缩技巧)
  • SSC305QE适配sdio wifi aic8800
  • 如何优雅地从网页中“抓取“你想要的视频和音频资源?