当前位置: 首页 > news >正文

Agent 的刹车:一文讲透 HITL(Human-in-the-Loop)

Agent 正在执行一个故障排查任务。

它分析完日志,得出结论:根因是某张表的慢查询,建议立刻执行ALTER TABLE优化索引。

然后它调用了工具,直接在生产库上执行了。

你事后才知道这件事——那张表有 2 亿条数据,ALTER TABLE锁表锁了 40 分钟,业务全线中断。

Agent 对根因的判断可能没错,但它缺少对执行风险和授权边界的判断——它不知道这个操作该不该由它来做,也不知道该在什么窗口期做。

这就是没有 HITL 的 Agent:能干活,但不知道什么时候该停下来问一句"这步你确认吗"。


本文是「工程师的第二曲线」Agent 工程系列第07篇。

编号主题状态
01Agent 为什么会"自己干活"?一文讲透 Agent Loop✅ 已发布
02Context Engineering:Agent 真正的难点在这里✅ 已发布
03Agent 的手:一文讲透 Tool Calling✅ 已发布
04Agent 的骨架:一文讲透 Agent Runtime✅ 已发布
05Agent 的记忆:一文讲透 Memory 体系✅ 已发布
06Agent 的黑匣子:一文讲透 Trace 与可观测性✅ 已发布
07Agent 的刹车:一文讲透 HITL📍 本篇
08给 Agent 打分:一文讲透 Eval即将发布
09Agent 的分工:一文讲透 Multi-Agent即将发布
10Agent 怎么想清楚再动手:一文讲透 Planning即将发布
11Agent 的外部记忆:一文讲透 RAG即将发布
12Agent 的行为说明书:一文讲透 Prompt Engineering即将发布
13Agent 的防护网:一文讲透安全与 Guardrail即将发布

一、为什么 Agent 需要人工介入

很多人第一反应是:Agent 不就是要自动化吗?加人工介入不是退步了?

不是的。HITL 不是因为 Agent 不够聪明,而是因为有些决策本来就不该由 Agent 独自做。

有三类情况,Agent 自己处理是有风险的:

操作不可逆:删数据、发邮件、执行变更——做了就很难撤回。Agent 的推理再准,也没有理由绕过人的确认直接执行这类操作。

证据不足:Agent 给出了结论,但证据链不完整,或者多个可能根因无法区分。这时不应只靠模型自信程度,而要把不确定性暴露给人,让人来判断。

超出授权范围:Agent 被授权做诊断,但没有被授权做变更。即使它判断正确,执行的权力也不在它手里。

这三类情况加在一起,决定了 HITL 不是可选项,而是 Agent 工程化的必要组成部分。

二、HITL 是什么

HITL(Human-in-the-Loop)就是在 Agent 执行链路的关键节点上,插入人工确认或人工干预的机制。

不是在每一步都等人,而是在特定条件满足时暂停,等人决定之后再继续

一次典型的 HITL 流程是这样的:

  1. Agent 执行到某个步骤,判断需要人工介入
  2. Agent 暂停,把当前状态、推理依据、待执行的操作整理成摘要,推送给人
  3. 人看完后给出决策:批准 / 拒绝 / 修改参数后继续
  4. Agent 收到决策,继续执行或终止

关键点在于:Agent 暂停期间,它的状态需要被完整保存下来——当前执行到哪一轮、已经收集了哪些 Evidence、下一步准备做什么。人批准之后,Agent 要能从断点精准恢复,而不是重头再跑一遍。

三、什么时候触发 HITL

触发 HITL 的条件,需要在设计阶段就明确定义,不能靠 Agent 自己"感觉"。

常见的触发策略有三种:

基于操作类型:对某一类工具调用强制要求人工确认,不管 Agent 有多确定。比如"所有写操作必须审批"、“所有涉及生产环境的变更必须审批”。这是最简单也最可靠的方式。

基于风险评估:Agent 在调用工具前评估这次操作的风险等级——影响范围有多大、是否可逆、是否在正常操作范围内。风险超过阈值就触发 HITL,低风险操作直接执行。

基于不确定性信号:当证据不足、工具结果互相矛盾、检索命中质量低、模型多次自我修正,或模型自评置信度低时,触发人工判断。这里用的是多维信号的组合,而不是单靠模型自己打分——LLM 的自评置信度本身并不总是可靠的。

三种策略可以组合使用。

实践中通常是:操作类型兜底(高危操作必审批)+ 风险评估动态调整(中等风险看情况)+ 不确定性信号作为辅助触发。

四、工程上怎么实现

HITL 看起来是个产品决策,实现起来是个工程问题。

难点不在于"怎么弹出一个确认框",而在于五件事:

状态持久化:Agent 暂停等待人工时,可能等几分钟,也可能等几小时。进程不能一直挂着,需要把当前执行状态序列化存下来,收到人工决策后再反序列化恢复。

精准 resume:恢复执行时,不能从头重跑,要从暂停的那一步继续。这要求每一步的输入输出都有完整记录,恢复时能重建出正确的上下文。

审批界面:人工介入的体验直接决定 HITL 的效果。摘要写得不清楚,人看不懂要确认什么;操作太繁琐,人就倾向于无脑点批准。审批界面需要把 Agent 的推理依据、待执行操作、潜在风险清晰地呈现出来。

超时与升级策略:人工审批不能无限等待。需要设计超时策略:超过多久自动取消、降级为只读建议,还是升级给更高权限的人处理。没有超时机制的 HITL,在无人响应时会让整个任务永远挂起。

审批审计与 Trace 记录:HITL 的价值不只是让人点按钮,还要记录是谁在什么时候基于什么信息做了什么决策。每一次审批都应该写入 Trace:审批人、时间、看到的摘要、批准的参数和最终执行结果,都要可追溯。这和 Observability 体系是同一套基础设施。

五件事做好了,HITL 才是真正可用的生产系统设计。做不好,要么暂停之后恢复不了,要么审批流于形式,要么出了问题查不清楚谁做了什么决定。

五、没有 HITL 的代价

没有 HITL 的 Agent,在低风险任务上表现很好,一旦遇到边界情况就容易出事:

高危操作无人把关:Agent 推理正确但操作有风险,没有人在执行前确认一次,就是在赌 Agent 永远不会犯错。

出了问题责任不清:Agent 自己决策自己执行,用户事后不知道 Agent 为什么这么做,也没有机会介入。信任很难建立。

自动化变成失控:本来是为了提效,结果 Agent 在不该动的地方动了手脚。自动化带来的收益,被一次事故全部抵消。

有了 HITL,系统才有了明确边界:哪些事 Agent 可以直接做,哪些事必须由 Runtime 暂停并交给人确认。这不是限制 Agent 的能力,而是让它在正确的范围内发挥能力。

最后说一句

Agent 的能力越强,HITL 就越重要。

不是因为不信任 Agent,而是因为权力越大,边界越需要清晰。

一个没有刹车的车,开得越快越危险;一个没有 HITL 的 Agent,能力越强风险越高。

HITL 是 Agent 从"实验玩具"走向"生产系统"的必经之路。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.gsyq.cn/news/1524289.html

相关文章:

  • 2026 高端奢侈品回收报价排行,南京五大箱包回收门店实测 TOP5 - 讯息早知道
  • 微服务指标监控一站式搭建:Prometheus抓取+Grafana大屏展示详解
  • MPC8313E内存控制器实战:DDR与eLBC配置差异与调试指南
  • MPC8544E缓存一致性与内存管理:从原理到嵌入式系统实战
  • 掌握Minecraft基岩版专业管理:构建高效多版本切换系统
  • 终极IDM激活脚本完整指南:永久免费解锁下载神器
  • LGTV Companion:3步解锁智能电视与PC的完美联动
  • 广州首饰回收 TOP 榜单!这几家本地人都在去 - 讯息早知道
  • 如何在macOS上选择最适合的视频播放器:IINA的三大技术优势与实用指南
  • 网盘直链下载助手:打破下载限速的终极解决方案
  • Python工业数据采集进阶:防护机制下验证码、IP封禁与JS加密实战
  • 2026 东莞黄金回收口碑店汇总,按克计价无扣费公开透明 - 薛定谔的梨花猫
  • MPC8323E UCC架构解析:参数RAM与缓冲区描述符驱动高效串行通信
  • 2026西平装修公司口碑排名 本地靠谱家装商家盘点 - 装企自媒体训练营辉哥
  • 2026 成都黄金回收排行榜出炉!榜首这家全城公认靠谱 - 薛定谔的梨花猫
  • 济南萧邦手表回收推荐篇:不同人群、不同品类,精准匹配你的靠谱之选 - 薛定谔的梨花猫
  • MPC8313E SPI控制器原理与驱动开发实战指南
  • LSPatch免Root框架终极指南:3步解锁Android无限定制潜力
  • 如何用trackerslist项目让BT下载速度提升300%?
  • 爱彼官方售后服务体系全面升级(2026年6月最新) - 亨得利官方服务中心
  • 本土实力领衔 2026 梅州黄金变现上门服务优势。优质机构实测测评 - zzlzzl6688
  • 如何在macOS上获得终极视频播放体验:IINA播放器完整指南
  • 2026年黄山家长注意:孩子高考滑档别放弃,共达复读班一年冲刺公办大专官方最新发布 - cc江江
  • 2026西安黄金回收哪里靠谱?|实测10家门店,金条变现不压价、不踩雷 - 西安闲转记
  • 湖北青春期孩子厌学叛逆不上学怎么办-纽特教育学校心理疏导与家庭教育指导 - 善良的阿良
  • AMD Ryzen SMU调试工具:解锁CPU底层控制的终极指南
  • 2026西安黄金回收测评:全域正规不扣损耗,大克重金条高值变现优选 - 西安闲转记
  • 2026年iOS越狱完整指南:从iOS 17到iOS 26.5的终极解决方案
  • S8.1价值感知设计——让用户觉得每一分钱都花得值
  • MPC8313E eTSEC硬件加速:哈希过滤与IEEE 1588精密时钟配置详解