OpenSREClaw - AI Agent 可靠性度量模型
1. Agent 的可观测
AI Agent 的可观测性(Observability)与传统软件有本质区别。传统软件关注“系统是否活着”(CPU、内存、错误率),而 AI Agent 关注"智能是否在线"(推理是否正确、工具是否调用成功、知识是否检索准确、成本是否可控)。AI Agent 的可观测性方法总结为 “四层体系”:数据采集层、核心维度层、评估分析层、工具平台层。
2. Agent 四个观测层次
2.1. 数据采集层:如何埋点?
没有数据,就没有观测可言。以下是几种常见的数据采集方法:
| 方法 | 描述 | 优点 | 缺点 |
|---|---|---|---|
| SDK 植入 | 在 Agent 代码中集成观测 SDK(如 LangChain Callbacks) | 数据最丰富,可获取中间推理步骤 | 侵入性强,需修改代码 |
| 代理网关 (Proxy) | 在 LLM API 前架设代理层,拦截所有请求/响应 | 无侵入,统一管控,可做限流/缓存 | 无法获取 Agent 内部推理逻辑(如思维链) |
| 日志旁路 | 异步发送日志到消息队列(Kafka),再入库 | 不影响主流程性能 | 实时性稍差,架构复杂 |
| OpenTelemetry | 使用 OTel 标准协议采集 Trace/Metrics/Logs | 标准化,可对接现有监控体系 | GenAI 语义规范仍在演进中 |
最佳实践: SDK + Proxy 组合。SDK 采集内部推理链路,Proxy 采集 API 调用和成本。
2.2. 核心维度层:观测什么?
AI Agent 需要观测以下五个核心维度:
2.2.1. 链路追踪(Traces):看清“思考过程”
Agent 的执行不是单点调用,而是多步循环(Plan -> Act -> Observe)。
观测点:
完整调用链: 用户输入 → 意图识别 → 任务分解 → 工具调用 → 结果汇总 → 最终输出。
中间状态: 每一步的输入/输出、耗时、Token 消耗。
异常路径: 哪里发生了重试?哪里触发了回退(Fallback)?
价值: 快速定位是“模型笨”还是“工具坏”。
2.2.2. 提示词与上下文(Prompts & Context):看清“输入质量”
观测点:
System Prompt 版本: 当前使用的是哪个版本的提示词模板?
检索内容(RAG): 召回了哪些文档片段?相关性得分是多少?
上下文长度: 是否接近 Token 上限?是否发生了截断?
价值: 优化 Prompt 工程,排查“幻觉”来源。
2.2.3. 工具调用(Tool Usage):看清“执行能力”
观测点:
调用成功率: 工具 API 返回 200 还是 500?
参数准确性: Agent 生成的工具参数是否符合 Schema?
执行耗时: 外部 API 调用是否拖慢了整体响应?
价值: 确保 Agent 的“手脚”灵活可靠。
2.2.4. 成本与性能(Cost & Performance):看清“资源消耗”
观测点:
Token 用量: 输入 Token vs 输出 Token 比例。
单次请求成本: 折算成美元/人民币。
响应延迟: 首字时间(TTFT) vs 总耗时。
并发量: QPS/RPS。
价值: 控制预算,优化性能。
2.2.5. 质量与安全(Quality & Safety):看清“智能水平”
观测点:
幻觉率: 输出内容是否与检索事实不符?(需评估模型判断)
有害内容: 是否触发了安全过滤(Prompt Injection, PII 泄露)?
用户反馈: 点赞/点踩率。
价值: 确保 Agent 可信、合规。
3. 评估分析层:如何判断好坏?
传统监控是“阈值告警”(CPU>80%),AI 监控是“质量评估”。以下是几种常见的 Agent 评估方法:
| 评估方法 | 描述 | 适用场景 |
|---|---|---|
| LLM-as-a-Judge | 用另一个大模型给 Agent 的输出打分(准确性、相关性) | 自动化测试、离线评估 |
| RAGAS 框架 | 专门评估检索增强生成(RAG)的质量(忠实度、答案相关性) | 知识库问答场景 |
| 人工抽检 | SRE 或领域专家定期抽查对话日志 | 高风险场景、冷启动阶段 |
| A/B 测试 | 对比不同 Prompt 或模型版本的转化率/满意度 | 优化迭代 |
| 用户反馈闭环 | 收集前端用户的 👍/👎 数据 | 在线质量监控 |
4. 工具平台层:用什么实现?
4.1.开源方案(自建)
LangFuse / LangSmith (开源版): 专门针对 LLM 应用的观测平台,支持 Trace、Prompt 管理、评估。
Arize Phoenix: 基于 OpenTelemetry,适合本地调试和嵌入现有栈。
ELK + Prometheus: 传统栈改造。Logs 存对话详情,Metrics 存 Token/延迟,Traces 存链路。
ClickHouse / Doris: 存储海量对话日志,用于后续分析。
4.2. 商业方案(SaaS)
LangSmith (商业版): 功能最全,生态最好。
Arize AI: 企业级 MLOps 平台。
Helicone / OpenLLMetry: 专注于网关层观测和成本优化。
4.3. 自研平台(大型企业推荐)
原因: 数据隐私(不能把日志发给第三方)、深度集成(对接内部 CMDB/权限系统)、成本可控。
架构: 采集 SDK → 消息队列 → 处理引擎(脱敏/评估) → 存储 → 可视化 Dashboard。
5.一句话总结
AI Agent 的可观测性,本质是“将黑盒模型白盒化”。不要只监控“系统状态”,更要监控“智能状态”(推理质量、工具成功率、知识准确性)。
