当前位置：首页 > news >正文

Deep Agent工程框架：解耦计划-执行-记忆-协作的智能体架构

news 2026/6/17 0:04:12

1. 项目概述从“循环式应答”到“工程化智能体”的真实跃迁你有没有试过让一个AI助手帮你做点稍微复杂的事比如“帮我查一下2024年全球Top 10半导体公司的营收、研发投入占比、最新制程节点再对比它们在AI芯片领域的布局最后生成一份PPT大纲和三页核心图表说明”——这种任务一抛出去大多数当前的AI助手要么卡在第三步就开始胡编乱造要么在第五次调用搜索工具后彻底忘记自己最初要干什么甚至开始自问“我刚才在查哪家公司”这不是模型不够强而是整个系统架构根本没为这种任务设计。过去一年里我们看到的90%所谓“AI Agent”本质上就是个带工具调用的while循环用户提问 → LLM思考 → 调一个工具 → 拿回结果 → 再思考 → 再调工具……周而复始。它没有记忆没有计划没有分工更没有纠错机制。就像让一个刚入职的实习生不给笔记本、不写待办清单、不分配小组、不设阶段性评审直接让他独立完成一份跨部门、跨季度、需多方协同的年度战略报告——不是人不行是工作方式根本不成立。这就是“Shallow Agent”浅层智能体的真实处境它的全部“大脑”就压在那几万token的上下文窗口里像把整本《资治通鉴》硬塞进一张A4纸还要求边读边批注、边划重点、边写读书报告。一旦中间插入一段冗长的网页HTML、一次失败的API响应、或一段格式混乱的CSV数据原始指令和目标瞬间就被挤出视野。而“Deep Agent”深层智能体不是给这个循环加了个更快的GPU而是彻底重建了整套工作流——它把“计划”从LLM的隐式推理中剥离出来变成一份可读、可改、可追踪的Markdown待办清单它把“执行”交给不同专长的子智能体像项目经理把市场调研分给研究员、把代码实现分给工程师、把文案输出分给编辑它把“记忆”从易挥发的上下文里解放出来存进文件系统或向量库需要时精准调取而不是靠死记硬背它把“提示词”升级成上千token的精密操作手册明确规定什么情况下必须暂停、谁来审批删除文件、如何命名临时数据、错误时该回滚几步……这不是功能叠加是范式迁移。它解决的不是“能不能回答”而是“能不能可靠地、可追溯地、可持续地完成”。如果你正被多步骤任务的不可控性困扰或者团队在反复调试Agent却总在第17步崩掉那么你真正需要的不是更大的模型而是这套已被Claude Code、Manus等一线产品验证过的Deep Agent工程框架。2. 核心设计逻辑为什么必须解耦“计划-执行-记忆-协作”2.1 为什么不能继续优化“Shallow Loop”四个无法绕开的物理瓶颈很多人第一反应是“既然问题出在上下文太小那换GPT-4o或Claude 3.5不就解决了”——这是最典型的认知陷阱。我去年带着团队实测过在单次调用中把上下文从32K拉到200K对复杂任务成功率的提升几乎为零。原因在于瓶颈根本不在“容量”而在“结构”。Shallow Agent的四大硬伤是任何模型参数堆叠都无法消除的物理限制第一上下文熵增不可逆。每次工具调用返回的结果尤其是网页抓取、数据库查询、API响应往往携带大量无关噪声HTML标签、HTTP头信息、调试日志、重复字段。这些内容以指数级速度污染上下文。我们做过一个实验让Agent执行“分析GitHub上LangChain仓库近30天的PR趋势”仅前5次搜索解析就塞入12,800 token的杂乱文本其中有效信息不足8%。此时原始任务指令“生成趋势分析报告”已滑出窗口顶部LLM只能基于碎片信息强行续写结果必然是幻觉。这就像往一杯清水中持续滴入墨水再大的杯子终将变黑。第二目标漂移无预警机制。Shallow Agent没有状态机只有线性历史。当它执行到第8步“整理竞品价格表”时如果第6步“爬取官网价格”因反爬失败返回空数据它不会主动回溯而是基于“空表格”继续推导“价格稳定”进而影响后续所有判断。我们统计过100个失败案例73%的崩溃源于Agent在未识别失败的情况下将错误中间态当作正确输入继续流转。它缺乏一个独立于执行层的“指挥中枢”无法在每一步后校验“我离最终目标更近了还是更远了”第三错误传播无隔离墙。所有操作共享同一上下文意味着一次工具调用的失败会污染后续所有决策。比如“用Python生成图表”子任务中代码报错信息混入上下文导致下一步“撰写结论”时LLM误以为“图表已生成成功”直接引用不存在的图像编号。这就像共用一台电脑的多个程序员A写的bug代码没清理干净B编译时直接继承了错误环境。Shallow架构天然缺乏“沙箱”能力。第四人力介入无标准化接口。当任务涉及敏感操作如删除生产文件、发送客户邮件Shallow Agent要么全权代理高风险要么完全阻断低效。它没有预设的“人工闸门”无法定义“哪些操作必须审批”“审批时提供哪些上下文”“拒绝后如何降级处理”。我们在金融客户项目中曾因此触发合规审计——Agent自动执行了rm -rf /data/backup只因上一步的路径解析出了偏差。提示这四个问题不是“可以优化的缺陷”而是Shallow架构的固有属性。试图用更大模型、更精调提示词去修补如同给漏油的发动机加更多机油——短期可能掩盖症状长期必然加剧系统性失效。2.2 Deep Agent的四大支柱不是功能堆砌而是责任分离Deep Agent的突破性在于它把原本揉在一起的“思考-行动-记忆-协作”四件事拆解成四个独立模块各司其职通过明确定义的接口通信。这不是炫技而是工程必要性。我把它类比为现代软件开发中的分层架构Plan层是产品经理负责拆解需求、制定路线图、监控进度Orchestrator是技术总监负责资源调度、任务分派、异常兜底Sub-Agent是各条线工程师专注领域内闭环Memory是数据库管理员确保数据可查、可溯、可授权。每一层都可独立演进、测试、替换。Pillar 1Explicit Planning显式计划——给Agent装上“项目管理看板”关键不是“让它想”而是“强制它写下来”。TodoListMiddleware生成的不是普通清单而是一个带状态机的动态文档每个条目包含id、statuspending/in_progress/completed/failed、dependencies前置任务ID、notes执行中发现的问题。当Agent执行“搜索量子计算论文”时它必须先调用write_todos创建条目执行中更新status为in_progress失败时标记failed并填写notes: arXiv API rate limit exceeded。这个清单本身成为新的上下文锚点后续所有决策都基于此而非原始模糊指令。我们实测显示引入TodoList后50步以上任务的成功率从12%提升至68%因为Agent终于有了“我在哪、要去哪、卡在哪”的全局视图。Pillar 2Hierarchical Delegation分层委派——终结“全能型实习生”困局Shallow Agent的致命诱惑是“让一个模型干所有事”但现实是研究需要高召回率检索编码需要精确语法写作需要风格一致性。Deep Agent的Orchestrator不参与具体执行只做三件事1根据任务类型选择子智能体Researcher/Coder/Writer2为子智能体注入纯净上下文仅含当前子任务指令必要文件路径3接收结构化输出非原始工具响应而是{summary: ..., sources: [...]}。例如“生成PPT大纲”任务Orchestrator调用Writer子智能体时只传入“基于/data/research/quantum_summary.md生成5页PPT大纲每页含标题3要点用markdown列表”。Writer的上下文里没有前10步的搜索日志没有代码错误堆栈只有干净的任务包。这直接将子任务失败率降低76%因为错误被严格限制在单一层级。Pillar 3Persistent Memory持久化记忆——从“死记硬背”到“按需索引”Deep Agent的Memory不是缓存而是知识图谱。它通过write_file将中间产物存入文件系统如/research/competitors/pricing_2024.csv后续步骤用read_file /research/competitors/pricing_2024.csv精准加载而非把整个CSV塞进上下文。更进一步我们用grep -n NVIDIA /research/competitors/pricing_2024.csv只提取相关行。这相当于把“背诵整本电话簿”升级为“拨打前查号码”。在向量库集成中我们为每个文件生成嵌入向量当任务需要“找出所有提及‘光刻机’的竞品报告”系统自动检索/reports/目录下相关文档ID再按需读取——上下文占用从数万token降至数百token。Pillar 4Extreme Context Engineering极致上下文工程——操作手册取代“你是好助手”Deep Agent的system_prompt不是一句口号而是一份SOP标准作业程序。我们为金融分析子智能体编写的提示词长达2187 token包含准入规则当用户请求涉及实时股价必须调用finance_api工具若返回错误立即切换至yfinance备用源不得自行估算容错协议若代码执行报错先检查是否缺少pandas库用pip list验证再检查数据路径是否存在用ls验证最后才重试输出契约所有表格必须用markdown格式首行是表头数值列保留2位小数货币单位统一为USD人工介入点当操作涉及删除文件、修改数据库、发送邮件时必须调用request_approval工具并附带操作影响范围说明。这份提示词不是教LLM“怎么想”而是告诉它“在什么条件下必须做什么、怎么做、做到什么标准”。3. 实操落地从零构建一个可运行的Deep Agent系统3.1 环境准备与核心依赖安装避开版本地狱Deep Agent不是单一库而是一套协同工作的组件栈。我强烈建议放弃pip install deepagents这种“一键安装”幻想——它大概率会因依赖冲突失败。以下是经过23个生产环境验证的最小可行配置以Ubuntu 22.04 Python 3.11为例# 创建隔离环境绝对不要用系统Python python3.11 -m venv ./deepagent-env source ./deepagent-env/bin/activate # 安装基础框架注意版本锁定 pip install --upgrade pip pip install langgraph0.2.52 # 必须≤0.2.520.3.x有重大API变更 pip install langchain-core0.3.12 langchain0.3.12 pip install tavily-python0.4.1 # 搜索工具0.4.1修复了HTTPS证书问题 pip install pydantic2.9.2 # LangGraph 0.2.52依赖此版本新版会报错 # 文件系统后端选其一推荐本地FS起步 pip install aiofiles23.2.1 # 异步文件IO避免阻塞 # 若需向量存储进阶 pip install chromadb0.4.24 # 0.4.24兼容LangChain 0.3.x注意langgraph和langchain的版本必须严格匹配。我们踩过坑LangGraph 0.3.0要求LangChain 0.4.x但后者移除了Runnable基类导致所有Middleware失效。生产环境务必用pip freeze requirements.txt固化版本。3.2 构建你的第一个Deep Agent从“天气查询”到“竞品分析”的跨越下面是一个可直接运行的完整示例它将演示如何让Agent完成“分析三家AI芯片公司的技术路线图”这一典型多步骤任务。代码刻意保持简洁但每行都对应一个Deep Agent的核心设计原则import os from typing import Literal from tavily import TavilyClient from langgraph.checkpoint.memory import MemorySaver from deepagents import create_deep_agent from deepagents.backends import StateBackend, CompositeBackend from deepagents.middleware import TodoListMiddleware, FilesystemMiddleware, SubAgentMiddleware # 1. 初始化搜索客户端实际项目请使用环境变量 tavily_client TavilyClient(api_keyos.getenv(TAVILY_API_KEY, your_key_here)) # 2. 定义研究型子智能体体现Pillar 2专业化 def internet_search(query: str, max_results: int 3) - dict: 封装Tavily搜索返回结构化结果 try: results tavily_client.search(query, max_resultsmax_results) return { query: query, results: [ {title: r[title], url: r[url], content: r[content][:500]} for r in results[results] ] } except Exception as e: return {error: str(e), query: query} research_subagent { name: research-agent, description: 专注技术文档检索与摘要不处理代码或写作, system_prompt: ( 你是一名资深半导体行业研究员。只做三件事1) 精准解析用户技术问题 2) 调用internet_search获取权威来源3) 用中文生成300字内技术摘要严格标注引用URL。禁止编造、禁止推测、禁止使用可能大概等模糊词。 ), tools: [internet_search], model: claude-sonnet-4-5-20250929 # 指定更强模型处理技术文档 } # 3. 配置文件系统后端体现Pillar 3持久化记忆 # 使用CompositeBackend实现混合存储/tmp/临时/memories/持久 def make_backend(runtime): from deepagents.backends import StoreBackend from langgraph.store.memory import InMemoryStore return CompositeBackend( defaultStateBackend(runtime), # 临时存储对话结束即销毁 routes{/memories/: StoreBackend(runtime)} # 持久存储需InMemoryStore支持 ) # 4. 创建主Agent体现Pillar 1 4显式计划极致提示 checkpointer MemorySaver() # 必须用于Human-in-the-loop和状态恢复 agent create_deep_agent( modelclaude-sonnet-4-5-20250929, subagents[research_subagent], # 注册子智能体 backendmake_backend, # 启用文件系统 checkpointercheckpointer, # 启用状态持久化 # 自定义规划提示Pillar 4的体现 system_prompt( 你是一个AI芯片技术分析师。执行任务前必须调用write_todos创建待办清单。每项任务必须有明确输出物如report.md和验收标准如包含3家公司的制程节点对比。遇到搜索失败立即标记todo为failed并记录原因不得重试超过2次。所有文件必须存入/memories/目录命名规则{company}_{topic}_{date}.md ) ) # 5. 运行任务见证Deep Agent如何工作 if __name__ __main__: # 这个请求会触发完整的Deep Agent流程 result agent.invoke({ input: 分析NVIDIA、AMD、Intel在AI芯片领域的技术路线图重点关注2023-2025年制程节点、封装技术、AI加速器架构生成一份对比报告存入/memories/ai_chip_comparison_2025.md }) print(任务完成查看生成的报告) print(result.get(output, 无输出))执行过程深度解析你将在终端看到什么Plan阶段Agent首先调用write_todos生成初始清单1. [pending] 检索NVIDIA AI芯片技术路线图 → 输出/memories/nvidia_route_2025.md2. [pending] 检索AMD AI芯片技术路线图 → 输出/memories/amd_route_2025.md3. [pending] 检索Intel AI芯片技术路线图 → 输出/memories/intel_route_2025.md4. [pending] 对比三份文档生成/memories/ai_chip_comparison_2025.mdDelegation阶段Orchestrator启动research-subagent三次每次传入纯净指令子任务1检索NVIDIA AI芯片技术路线图重点找2023-2025年制程节点、封装技术、AI加速器架构research-subagent独立执行搜索→摘要→写入/memories/nvidia_route_2025.md全程不接触其他两份文档。Memory阶段当执行第4步“对比”时Agent不再调用搜索而是精准read_file三份已存文档用grep提取“制程节点”段落再进行结构化对比。Recovery阶段若某次搜索失败如Tavily限频Agent将第1项todo标记为failed并在notes中写明原因然后继续执行第2、3项最后在报告中注明“NVIDIA数据因API限制暂缺”。实操心得第一次运行时务必打开LANGCHAIN_DEBUG1环境变量观察每一步的tool call和observation。你会清晰看到Plan层如何驱动Execution层以及Filesystem如何作为Memory层被调用。这是理解Deep Agent工作流的最快途径。3.3 Human-in-the-Loop为关键操作设置“安全阀”在生产环境中让Agent自动执行delete_file或send_email是灾难源头。Deep Agent通过LangGraph的interrupt机制提供了工业级的人工干预能力。以下是如何为删除操作添加审批闸门from langchain.tools import tool from langgraph.checkpoint.memory import MemorySaver tool def delete_file(path: str) - str: ⚠️ 危险操作删除文件。必须经人工审批 # 生产环境应对接真实文件系统此处仅示意 return f已标记删除 {path}等待审批 tool def send_email(to: str, subject: str, body: str) - str: 发送邮件需审批但允许编辑收件人 return f已准备发送邮件至 {to} # 关键配置interrupt_on字典定义审批策略 checkpointer MemorySaver() agent create_deep_agent( modelclaude-sonnet-4-5-20250929, tools[delete_file, send_email], interrupt_on{ delete_file: True, # 默认全权限批准/编辑/拒绝 send_email: { allowed_decisions: [approve, reject] # 禁止编辑只能批准或拒绝 } }, checkpointercheckpointer ) # 调用时当Agent尝试调用delete_file流程会中断 result agent.invoke({input: 清理临时文件/tmp/cache_*}) # 此时result中会包含 # {status: interrupted, interrupt: {type: tool, tool_name: delete_file}} # 开发者需捕获此状态展示审批界面再调用agent.resume()继续审批界面设计建议来自我们客户的实践在Web UI中当interrupt触发时自动弹出模态框显示▶️待审批操作delete_file(/tmp/cache_20250322.zip)▶️上下文快照显示执行此操作前的3个关键步骤如“刚完成数据清洗”“即将生成最终报告”▶️风险提示此文件为数据清洗中间产物删除后需重新运行耗时12分钟▶️操作按钮✅ 批准✏️ 编辑路径❌ 拒绝需填写原因这种设计让审批者无需理解Agent内部逻辑只需基于业务影响做决策。4. 常见问题与实战排障那些文档里不会写的血泪教训4.1 “Agent卡在循环里不动了”——Plan层失效的三大征兆与急救这是Deep Agent新手最常遇到的“假死”现象。表面看进程无响应实则是Plan层陷入僵局。我们总结出三个典型征兆及对应解法征兆1Todo清单停滞在in_progress状态超5分钟原因子智能体执行超时如网络请求hang住Orchestrator未收到完成信号。急救在create_deep_agent中增加超时配置agent create_deep_agent( # ... 其他参数 timeout300, # 全局超时5分钟 subagent_timeout120, # 子智能体超时2分钟 )原理Deep Agent底层使用asyncio.wait_for超时后自动标记todo为failed并触发fallback逻辑。征兆2Todo清单反复创建相同任务如连续5次[pending] 检索NVIDIA...原因子智能体返回结果不符合预期格式Orchestrator无法解析输出物路径误判为任务未完成。急救强制规范子智能体输出契约。在research-subagent的system_prompt末尾追加“输出必须严格为JSON格式{output_file: /memories/nvidia_route_2025.md, summary: ...}. 不要任何额外文字。”验证用json.loads(response)测试子智能体输出确保能被Python原生解析。征兆3Todo清单状态正常但/memories/目录下无对应文件原因FilesystemMiddleware未正确挂载或路径权限错误常见于Docker容器内。排查在Agent代码中插入诊断日志from deepagents.backends import StateBackend # 在create_deep_agent前添加 print(Backend test:, StateBackend(None).list_files(/)) # 应返回空列表或根目录修复Docker部署时确保挂载卷docker run -v $(pwd)/memories:/app/memories ...注意所有超时、重试、fallback逻辑都应在Plan层定义而非在子智能体内部。这是Deep Agent“控制权上移”的核心思想——Orchestrator必须掌握全局节奏。4.2 “文件读不出来说路径不存在”——Memory层的路径陷阱与避坑指南文件系统是Deep Agent的命脉但路径问题让83%的新手栽跟头。以下是真实生产环境中的高频问题问题现象根本原因解决方案read_file(/memories/report.md)报错File not foundAgent默认使用StateBackend内存存储/memories/路由未生效确保create_deep_agent中传入backendmake_backend且make_backend函数返回CompositeBackendwrite_file(/memories/a.md)成功但ls /memories/看不到文件StateBackend的list_files()方法未实现需用glob工具代替改用glob(/memories/*.md)查看或启用StoreBackend需InMemoryStore多个Agent实例写入同一文件导致内容覆盖StateBackend是进程内内存无并发锁生产环境必须用StoreBackendChromaDB/PostgreSQL或在write_file前加分布式锁关键经验永远不要信任ls命令的输出Deep Agent的文件系统是抽象层ls只对StateBackend有效。正确做法是用glob(/memories/**)获取所有文件路径用read_file逐个验证内容在system_prompt中强制要求子智能体返回output_file字段作为文件存在性证据4.3 “子智能体不干活直接返回空”——Sub-Agent的上下文净化实操技巧子智能体失效90%源于上下文污染。我们发现一个隐蔽BugOrchestrator在调用子智能体时会把整个父Agent的上下文含前10步日志作为input传入导致子智能体“看到太多反而不知所措”。解决方案是双层净化第一层Orchestrator侧净化在research_subagent定义中显式指定input_keysresearch_subagent { # ... 其他字段 input_keys: [query, max_results], # 只允许这两个字段进入子智能体上下文 }这样即使父Agent传入{input: 分析..., history: 步骤1...步骤10...}子智能体也只会收到{query: NVIDIA 制程节点, max_results: 3}。第二层子智能体Prompt净化在system_prompt开头加入强约束“你只接收一个query参数。忽略所有其他输入字段。你的唯一任务是基于query执行internet_search生成摘要写入指定文件。不回答query以外的任何问题。”我们实测双净化后子智能体任务成功率从41%提升至92%。因为LLM在纯净上下文中能100%聚焦于单一职责。4.4 性能瓶颈定位当Deep Agent变慢先查这三处Deep Agent的性能问题往往不在LLM调用而在基础设施层。我们建立了一套快速诊断清单检查Tool Call延迟在internet_search函数中加入计时import time start time.time() results tavily_client.search(...) print(fTavily search took {time.time()-start:.2f}s) # 超过3s需优化优化Tavily免费版限速生产环境必须升级Pro版或切换至Serper。检查Filesystem I/O在write_file前后加计时start time.time() await backend.write_file(/memories/test.txt, btest) print(fWrite file took {time.time()-start:.2f}s) # 超过0.5s需检查磁盘优化Docker部署时确保/memories/挂载到SSD而非网络存储。检查LangGraph Checkpoint启用LANGCHAIN_TRACING_V21在LangSmith中查看trace。典型问题checkpoint_get耗时过长2s说明MemorySaver在内存中序列化大对象。修复改用PostgresCheckpoint或在create_deep_agent中设置checkpoint_config{kwargs: {timeout: 5}}。最后分享一个血泪教训我们曾因LANGCHAIN_DEBUG1未关闭导致每步日志写入磁盘使50步任务耗时从47秒暴涨至18分钟。生产环境务必关闭所有debug日志5. 进阶扩展让Deep Agent真正融入你的工作流5.1 与现有系统集成如何让Deep Agent调用你的内部APIDeep Agent的tools参数支持任意Python函数这意味着它可以无缝接入企业内部系统。以下是接入CRM系统的实战示例以Salesforce REST API为例import requests from typing import Dict, Any def fetch_customer_data(account_id: str) - Dict[str, Any]: 从Salesforce获取客户详细信息 # 生产环境应使用OAuth2令牌此处简化 headers {Authorization: fBearer {os.getenv(SF_TOKEN)}} response requests.get( fhttps://your-instance.salesforce.com/services/data/v58.0/sobjects/Account/{account_id}, headersheaders, timeout10 ) if response.status_code 200: data response.json() return { name: data.get(Name), industry: data.get(Industry), annual_revenue: data.get(AnnualRevenue), last_contact: data.get(LastActivityDate) } else: raise Exception(fSF API error: {response.status_code}) # 将其注册为tool crm_tool { name: fetch_customer_data, description: 从Salesforce获取客户基本信息输入account_id, args_schema: {account_id: str}, func: fetch_customer_data } # 在create_deep_agent中加入 agent create_deep_agent( # ... 其他参数 tools[crm_tool], system_prompt( 当用户提到客户名称或ID时必须调用fetch_customer_data获取最新数据。若API失败标记todo为failed并记录SF连接超时不得自行猜测数据。 ) )安全关键点所有API密钥必须通过os.getenv()读取严禁硬编码timeout10防止网络hang住整个Agent错误处理必须返回结构化异常便于Plan层识别失败5.2 长期记忆升级从InMemoryStore到企业级向量库InMemoryStore仅适合开发测试。生产环境必须升级。以下是ChromaDB集成的最小可行代码import chromadb from langgraph.store.chroma import ChromaStore # 初始化ChromaDB持久化到磁盘 client chromadb.PersistentClient(path./chroma_db) store ChromaStore(clientclient, collection_namedeepagent_memories) # 在create_deep_agent中使用 agent create_deep_agent( # ... 其他参数 storestore, # 替换InMemoryStore backendlambda runtime: CompositeBackend( defaultStateBackend(runtime), routes{/memories/: StoreBackend(runtime)} # 仍需CompositeBackend ) ) # 使用向量检索替代grep from langchain.retrievers import VectorStoreRetriever retriever VectorStoreRetriever(vectorstorestore.as_retriever()) # 在子智能体中调用retriever.invoke(关于台积电3nm工艺的文档)性能提示ChromaDB默认使用hnswlib索引首次写入1000个文档约需2分钟。建议在Agent启动时预热store.add_documents([Document(page_contentwarmup)])。5.3 监控与可观测性如何追踪Deep Agent的每一次心跳没有监控的Agent是定时炸弹。我们强制要求所有生产Agent接入以下三类指标1. Plan层健康度plan_steps_total总计划步骤数plan_steps_failed失败步骤数应5%plan_replan_count计划重写次数频繁重写说明目标定义不清2. Execution层效率tool_call_duration_seconds各tool调用耗时P95应3ssubagent_invocation_total子智能体调用次数突增可能意味任务分解过细3. Memory层稳定性filesystem_read_errors_total文件读取错误0需告警store_write_duration_seconds向量库写入耗时P95应1s实现方式在create_deep_agent前注入OpenTelemetryfrom opentelemetry import trace from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter from opentelemetry.sdk.trace import TracerProvider from opentelemetry.sdk.trace.export import BatchSpanProcessor provider TracerProvider() processor BatchSpanProcessor(OTLPSpanExporter(endpointhttp://otel-collector:4318/v1/traces)) provider.add_span_processor(processor) trace.set_tracer_provider(provider)我的个人体会是Deep Agent的价值不在于它能多酷炫地完成任务而在于它让“不可控的AI行为”变成“可测量、可归因、可优化的工程系统”。当你能在Grafana面板上看到plan_steps_failed曲线突然飙升就知道该去检查用户输入的歧义性了当你发现subagent_invocation_total持续高位就该重构任务分解逻辑了。这才是AI工程化的真正起点——不是让机器更聪明而是让人对机器的行为拥有确定性的掌控力。

查看全文

http://www.gsyq.cn/news/1361005.html