当前位置: 首页 > news >正文

Anthropic Managed Agents 解读:长任务 Agent 为什么要解耦 brain、hands 和 session

摘要:Anthropic Engineering 在 2026 年 4 月发布《Scaling Managed Agents: Decoupling the brain from the hands》,讲的是长任务 Agent 如何从“一个大容器里跑到底”演进为可恢复、可替换、可扩展的系统架构。它的核心启发是:Agent 不应该被设计成一个不能失败、不能迁移、不能调试的“宠物容器”,而应该拆成 brain、hands、session 三类稳定接口,让模型、工具、沙箱和状态日志可以独立演进。

背景:长任务 Agent 不是一次推理,而是一套运行时

很多团队做 Agent 时,最初会把所有东西放进同一个运行环境:模型循环、工具调用、文件系统、代码执行、会话状态都在一个容器里。这样做开发很快,因为文件修改是本地 syscall,工具接口也不用跨服务设计。

但一旦 Agent 开始处理长任务,这种架构就会暴露问题。任务可能运行几十分钟甚至更久,容器可能卡死,网络流可能中断,模型上下文可能耗尽,用户可能暂停后再回来。单容器架构在 demo 阶段很舒服,在生产阶段就会变成难维护的“宠物”。

Anthropic 的 Managed Agents 就是为了解决这个问题。它把长任务 Agent 拆成三类接口:brain、hands 和 session。brain 是 Claude 与 harness;hands 是沙箱、工具和外部执行环境;session 是可持久化的事件日志。

从宠物容器到可替换组件

Anthropic 文章里用了 pets vs cattle 的类比。宠物是有名字、需要照顾、不能轻易丢的个体;cattle 是可替换的资源。如果 Agent 的全部状态都在一个容器里,这个容器就成了宠物。

容器一旦失败,session 可能丢失;容器卡住,工程师不得不进容器调试;容器里如果还存着用户数据和凭据,调试本身又会变成安全问题。

Managed Agents 的做法是让 harness 离开容器。容器不再承载整个 Agent,而只是一个可以被调用的执行工具。brain 通过类似 execute(name, input) -> string 的接口调用 hand。如果 hand 死了,brain 收到的是工具错误,可以重新 provision 一个。

这带来一个关键变化:失败从灾难变成普通事件。系统不需要拯救某个坏掉的容器,而是把失败暴露给 Agent 或编排层,让它重试、换环境或请求人工介入。

Session 不等于上下文窗口

长任务 Agent 的另一个难题是上下文。很多人会把上下文问题理解为“模型上下文窗口不够长”,于是使用压缩、摘要、裁剪、memory 文件等策略。

这些方法有用,但都有不可逆风险。你今天丢掉的一段日志,可能正是明天排查失败需要的关键证据。

Anthropic 的思路是把 session 做成 Claude 上下文窗口之外的持久事件日志。harness 每次执行都写入事件,失败后新 harness 可以通过 wake(sessionId) 恢复,用 getSession 或 getEvents 获取历史,再从最后事件继续。

这相当于把“可恢复状态”和“当前提示词上下文”分开。Claude 当前上下文只放这一步需要的内容,完整历史则保存在 session 里,可以按需切片、回看、摘要或重组。

对研发团队来说,这个设计非常重要。不要把所有历史都塞进 prompt,也不要把状态只存在模型上下文里。长期 Agent 应该有自己的事件溯源系统。

Brain 和 hands 解耦后的性能收益

文章还提到一个很实际的性能收益:TTFT,也就是从接受任务到产生第一个响应 token 的时间。

在旧设计里,每个 brain 都绑定一个容器。即使任务一开始并不需要执行代码,也要先 provision 容器、克隆仓库、启动进程、取事件。用户会感觉启动很慢。

brain 和 hands 解耦后,推理可以先开始。只有当任务真正需要文件系统、shell 或其它执行环境时,brain 才通过工具调用去 provision hand。Anthropic 文章称,这让 p50 TTFT 下降约 60%,p95 下降超过 90%。

这个例子说明:Agent 性能优化不只是模型推理速度。架构是否把不必要的环境启动放在关键路径上,会直接影响用户体验。

安全边界:凭据不应出现在 sandbox 里

解耦还有一个安全收益。旧架构里,Claude 生成的代码可能和凭据在同一个容器中运行。如果 prompt injection 诱导 Claude 读取环境变量,token 就可能泄露。

Managed Agents 的结构性修复是:生成代码运行的 sandbox 不应能接触凭据。

Anthropic 使用两种模式:一种是把授权和资源绑定,比如 Git token 只在初始化 repo 时用于配置 remote,agent 不直接接触 token;另一种是把 OAuth token 放在 sandbox 外部的 vault,通过 MCP proxy 代为调用外部服务。harness 也不需要知道真实凭据。

这给企业 Agent 一个明确原则:工具权限要通过代理和 vault 管理,不要把凭据作为环境变量塞进执行容器。

多个 brain,多个 hands

一旦 brain、hands、session 都变成接口,系统就不再限制于一个模型操作一个容器。多个 brain 可以启动多个无状态 harness;一个 brain 可以连接多个 hands;不同 hands 可以是容器、MCP 工具、远程环境,甚至未来完全不同的执行设备。

这对企业场景很重要。客户可能希望 Agent 操作自己 VPC 内的资源,而不是把所有数据拉到服务商容器里。如果 harness 不再假设资源就在本地容器,集成远程环境会更自然。

未来 Agent 平台很可能会像分布式系统一样:一个协调 brain,多个执行 hand,一个 durable session log,再加上权限、审计、恢复和监控。

对研发团队的实践建议

第一,不要把长任务 Agent 做成单进程脚本。至少要拆出状态日志、工具执行环境和模型循环。

第二,所有关键事件都应 append-only 记录。模型输入、工具调用、输出、错误、人工反馈、文件改动都应该能回放。

第三,sandbox 要可替换。执行环境坏了可以重建,任务不应因此丢失。

第四,把凭据放在 vault 和 proxy 后面。Agent 可以请求能力,但不应该直接持有长期密钥。

第五,把 TTFT 纳入 Agent 体验指标。用户感知的不只是任务总时长,也包括任务是否能立刻开始推进。

风险与限制

这种架构会增加系统复杂度。接口边界、事件日志、远程 sandbox、MCP proxy、凭据 vault 和恢复逻辑都需要工程投入。对小型 demo 来说,单容器可能更快。

但一旦 Agent 要进入真实生产环境,可恢复性、安全边界和可观测性会比开发便利更重要。尤其是长任务、多人协作和企业权限环境下,单容器架构很快会成为负担。

结论

Anthropic Managed Agents 的核心启发是:长任务 Agent 应该像分布式系统,而不是像一次性脚本。

brain、hands、session 的解耦,让 Agent 能失败后恢复、能连接不同执行环境、能保护凭据、能降低启动延迟,也能随着模型能力提升替换 harness。对研发团队来说,建设 Agent 平台时最重要的不是先堆更多工具,而是先设计稳定接口和持久状态。只有这样,Agent 才能从一次性自动化,变成可长期运行的工程基础设施。

参考来源

  • Anthropic Engineering:Scaling Managed Agents: Decoupling the brain from the hands,2026-04-08
    https://www.anthropic.com/engineering/managed-agents
  • Anthropic Engineering Blog
    https://www.anthropic.com/engineering
http://www.gsyq.cn/news/1594683.html

相关文章:

  • OWASP Top 10 2025实战指南:从漏洞原理到防御体系构建
  • 抖音批量下载完整指南:从零到精通的高效内容获取方案
  • Mod Organizer 2终极指南:从零开始掌握游戏模组管理的完整教程
  • 5分钟掌握diff-pdf:免费开源的PDF差异检测终极指南
  • 3个步骤让Figma界面秒变中文:设计师的母语工作流革命
  • PDF文档差异检测技术方案:自动化对比与可视化验证的工程实践
  • Qwerty Learner终极指南:如何用免费开源软件同时提升打字速度和英语词汇量
  • Tomcat会话反序列化漏洞CVE-2025-24813原理分析与复现
  • Mapper算法有效性验证:基于协方差保持高斯零模型的拓扑结构显著性检验
  • Python金融数据分析利器:mootdx通达信数据完整使用指南
  • OpenAI流式响应全链路实战:从超时控制到容错降级
  • 半导体测试座接触不良问题分析与优化方案
  • 5分钟终极指南:如何用FigmaCN让设计界面秒变中文
  • 如何5分钟安装DeepL翻译插件:免费浏览器扩展助你轻松翻译网页内容
  • Windows Docker Desktop 环境下 RabbitMQ 生产级部署完整指南
  • 如何免费获得专业绘图工具?Draw.io桌面版终极指南
  • 如何快速掌握Kinovea视频分析:面向初学者的完整运动分析指南
  • RAG优化的多路召回-混合检索
  • 外区域拉格朗日平均曲率方程:解的存在性、渐近行为与关键技术分析
  • 如何通过代理抓包技术实现跨平台网络资源下载
  • FreeClip2音质变糊?原来是出音孔堵住了!
  • 番茄小说下载器架构解析:基于Rust的高性能离线阅读解决方案
  • SNK施努卡GCU控制器自动化产线:120秒节拍,5人完成高节拍智造
  • 芯片干货 |异步内置MOS升压恒压芯片 FP6291,最高输出5-12V/5-7W,输入限流可调
  • 判断提质,而非加速漏斗:AI招聘正在重写HR的核心能力坐标
  • 【每日复盘与反思】2026.6.23
  • 深挖 GEO 技术底层逻辑,展望 2026 年行业技术迭代新方向
  • 科技驱动型亚洲EMBA理性测评与科学选型指南
  • 如何在3秒内将网页图片转换为所需格式:Save Image as Type终极指南
  • 经常帮家里人查件?收好这篇,想查快递该怎么查一目了然