当前位置: 首页 > news >正文

【Agent Harness实战】我给我的Agent系统请了八个“保洁阿姨”,让AI自己整理自己

我给我的Agent系统请了八个“保洁阿姨”,让AI自己整理自己

之前聊了流马的记忆、技能、工具、门禁…… 但有一个问题我一直没正面回答:

系统跑久了,技能图谱会乱、知识碎片会散、记忆会膨胀、失败模式会堆积。谁来收拾?

指望开发者手动整理?那还不如不搞自动化。

指望LLM主动整理?它连自己昨天说过什么都不记得。

所以,我决定请一批“保洁阿姨”——专门负责后台整理的 Batch Agent。她们不参与前台任务,只在系统空闲时默默打扫。而且最妙的是,我只写了一套框架,就生出了八个不同职能的阿姨。

一、整理这件事,为什么不能靠“一个Prompt”搞定?

你可能会说:“让LLM定期总结一下技能图谱,给个优化建议,不就行了?”

试过,不行。因为这不是“一个任务”,而是八个完全不同维度的整理需求

  • 两个技能太像了,要不要合并?(技能合并)
  • 昨天那个报错,根本原因是什么?(失败模式挖掘)
  • 这两个实体其实是一个东西吧?(实体解析)
  • 这个技能最近成功率暴跌,是不是该修了?(技能健康巡检)
  • 知识碎片堆了上百条,哪些该提炼成正式知识?(知识碎片提炼)
  • 历史记忆太多,哪些可以压缩归档?(记忆整合)
  • 技能之间有些没被发现的关联,能自动推荐吗?(链路推荐)
  • 这些整理模板本身效果怎么样?(模板效果分析)

如果用一个大Prompt让LLM一次搞定全部,结果一定是:什么都会一点,什么都做不精。而且每次调用都把所有数据喂进去,Token费用直接爆炸。

二、“模板即角色”——八个阿姨,一套框架

流马的做法是:不同整理任务 = 同一个框架 + 不同配置 + 不同模板。

框架只做五件事:

  1. 等时机(定时触发 / 事件触发 / 手动触发)
  2. 攒素材(滑动窗口收集相关数据)
  3. 喂模板(把数据填入对应角色模板,发给LLM)
  4. 收结果(解析LLM返回的JSON)
  5. 写入库(把结果写回技能图谱或知识库)

八个角色的差异只有两点:模板文件(告诉LLM分析什么)+ 结果处理器(分析完了怎么存)。其余全部复用。

这意味着:加一个新角色,只需要写一个模板文件、加一行配置、写一个结果处理函数。不改框架代码,不加新模块,不重新编译。

举个例子。假设产品经理说:“能不能每周检查一下技能描述是不是过时了?”

我的操作:

  1. 写一个模板文件description_stale_check.md,告诉LLM“对比技能描述和最近使用情况,判断是否过时”
  2. 在配置文件里加一行- name: description_stale_check_agent, schedule: "每周一早6点"
  3. 写一个结果处理器:LLM判断过时且置信度>0.8 → 自动更新技能描述

搞定。十分钟上线一个新整理角色。

三、这八个阿姨具体干什么?

阿姨1号:技能合并专家

每2小时巡逻一次。发现两个技能语义太像(比如“Python数据分析”和“Pandas数据处理”),自动分析相似度,建议合并策略。置信度>0.85的直接合并,中等置信度的送进“人工确认队列”。

阿姨2号:知识碎片提炼

把CA Agent标记的“失败记录”提炼成结构化的经验知识。比如“数据清洗时缺失值超30%会导致均值填充偏差”这种碎片,自动加上根因分析、泛化场景、关联技能,升级为正式知识节点。

阿姨3号:实体解析

新抽取的实体(比如“张三”),自动去知识图谱里找同名或相似的实体,判断是不是同一个人。是同一个?自动合并。不确定?标记冲突,等人工裁决。

阿姨4号:失败模式挖掘

每30分钟拉取最近的失败事件,按错误码分组统计,识别趋势。“这个错误最近3小时出现了15次,而且还在增长”——自动生成告警节点,挂到相关技能上。

阿姨5号:技能健康巡检

每5分钟扫描一遍技能图谱。成功率低于60%?标记为D级。依赖链断裂?记录问题。自动生成健康报告,高优先级的直接送进人工确认队列。

阿姨6号:记忆整合压缩

每天凌晨3点执行。把7天前的旧对话摘要压缩归档,重复内容去重,低访问条目评估是否保留。不是简单删,而是“该归档的归档,该提炼的提炼,该删的删”。

阿姨7号:链路推荐

每30分钟分析一次技能之间的“潜在关系”。两个技能经常被一起调用?标签高度相似?自动推荐建立关联链接。置信度高的直接加上,中等的送审。

阿姨8号:模板效果分析

统计每个整理模板的成功率、平均置信度、失败原因。“skill_merge模板最近解析失败率上升了15%,原因是LLM输出的JSON格式变了”——这种洞察自动生成报告,供开发者优化模板。

四、架构收益:让系统学会“自己整理自己”

维度没有Batch Agent有Batch Agent
技能图谱维护靠开发者手动合并、更新自动合并、自动巡检、自动建议
失败经验复用失败就失败了,下次还犯自动挖掘模式、提炼知识、关联技能
实体一致性同名不同人、同人不同名,混乱自动解析、合并、标记冲突
记忆管理无限膨胀,Token费用飞涨自动压缩归档,冷热分离
系统智能性静态,只会执行不会进化持续自我优化,越用越聪明

五、风险与兜底

这套设计有个核心原则:高置信度的自动执行,中低置信度的必须人工确认。

  • LLM判断合并置信度0.9?自动合并。
  • 0.7?送人工确认队列。
  • 0.5?丢弃。

记忆压缩也一样:先标记删除,观察7天,再物理删除。绝不直接删数据。

六、最后说句人话

流马的Batch Agent,本质上是给AI系统装了一套“新陈代谢系统”。

生物体靠新陈代谢排出废物、修复损伤、更新细胞。AI系统也需要同样的机制——技能会过时、知识会冗余、记忆会膨胀、错误会重复。没有新陈代谢的系统,跑得越久越臃肿,最终一定会腐化。

这八个“保洁阿姨”,就是流马的新陈代谢。她们不参与前台任务,不抢Agent的风头,但她们在后台默默保证:这个系统,不会腐烂。

我这套系统叫Gliding Horse(流马),所有代码都在 GitHub 上:https://github.com/doiito/gliding_horse

这个系列写到第14篇了。从最开始的JSON-LD选型,到CPU缓存记忆,到丰田安灯绳,到硬核门禁,到八大保洁阿姨…… 每一篇都是我在构建流马过程中真实踩过的坑和做过的选择。如果你也在思考AI Agent的工程化落地,希望这个系列能帮你少走一些弯路。

http://www.gsyq.cn/news/1525823.html

相关文章:

  • 2026青岛海鲜最新防坑地图:黄岛金沙滩游玩,为什么一定要去这家「金沙渔府」? - 资讯速览
  • 从Dijkstra到TEB:为你的ROS机器人选对路径规划算法(含A*、DWA对比实测)
  • 40公斤寄什么物流便宜?40公斤寄大件物流,哪个最便宜? - 快递物流资讯
  • Agent 记忆压缩:如何降低向量库成本
  • Agent 能力评估 CheckList:你的智能体准备好上线了吗?
  • 从PyTorch/TensorFlow需求反推:Ubuntu上CUDA和cuDNN版本到底该怎么选?
  • 2026年温州企业IP打造浙视传媒战略级内容全案解析 - 资讯速览
  • 2026年6月最新版龙岩正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一修哥咨询
  • OpenCore Legacy Patcher:让旧款Mac重获新生的智能兼容方案
  • MPC8280并行I/O端口配置详解:从寄存器原理到嵌入式工程实践
  • 2026年6月最新版南阳正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一修哥咨询
  • 终极免费离线音频转录工具:Buzz本地语音转文字完整指南
  • 保姆级教程:在Ubuntu 22.04上用ROS2 Humble和Gazebo搞定TurtleBot3仿真(附避坑点)
  • Obsidian REST API 终极指南:3种方法彻底释放你的知识库潜能
  • 【 上岸必看!【药学】必背100题及解析(卷号:06121219_03) 】
  • 13-列表append的底层真相(上)-listobject源码中的预分配策略
  • 三步实现SillyTavern桌面化:告别命令行,轻松打造专属AI聊天应用
  • 如何用自然语言操作电脑:UI-TARS桌面版AI智能体完全指南
  • 2026 Lazada流量转化专家/机构中立测评榜单|商家全域选型指南 - 品牌2026推荐
  • 2026 广州合同诈骗罪专业律师推荐:合同纠纷变刑事?怎么选对辩护律师 - 互联网科技品牌测评
  • Neura获14亿美元C轮融资,人形机器人赛道从实验室迈向工厂!
  • PyTorch训练避坑实录:在AMD平台(DirectML)上跑代码,为什么我的优化器不工作了?
  • 5分钟快速上手:免费获取海量小说资源的完整书源配置方案
  • 合肥市庐江县 家电维修清洗|维小达|空调、冰箱、洗衣机、热水器、油烟机一站式维保清洗服务 - 维小达科技
  • 广州擅长合同诈骗刑事辩护律师排名参考:2026 年经济犯罪辩护实务观察 - 互联网科技品牌测评
  • Yuzu模拟器企业级部署方案:3种架构设计与性能优化50%技术指南
  • 面试官最爱挖的“数学陷阱”:有序转数组(Sort Transformed Array)为什么很多人第一眼就做错了?
  • 海外仓建站方案:打造国际物流服务营销平台 - 外贸营销驿站
  • 2026电商流量转化实战专家机构客观测评榜单:企业全域转化选型指南 - 品牌2026推荐
  • 2026年浪琴全国售后网络全新升级(最新服务热线与网点地址汇总) - 资讯速览