当前位置：首页 > news >正文

AI Runtime分层革命：Session-as-Event-Log如何重构智能体稳定性

news 2026/6/26 3:24:08

1. 这不是新赛道是 runtime 层的“操作系统时刻”来了你有没有在深夜调试一个跑了三小时的 AI 代理突然发现它开始胡言乱语不是模型崩了不是 prompt 写错了而是——它的“记忆”被挤掉了。上下文窗口就那么大工具调用日志、中间结果、用户多轮对话、系统指令……全塞进去像往一个20升的桶里硬灌30升水。最后溢出的不是水是逻辑它忘了自己上一步查了什么数据库忘了用户明确说“别改原始合同条款”甚至把 Slack 里发来的错误 token 当成合法凭证直接拼进 curl 命令里。这种失败不炸裂不报错它安静地、昂贵地、不可逆地把你三天的工作成果吞掉。我去年就亲手埋过两个这样的坑重写状态层花了整整一周。Anthropic 在4月8号发布的 Claude Managed Agents本质上就是把我们团队那周熬出来的血泪教训做成了一套开箱即用的工业级方案。这不是又一个“AI agent 平台”的营销噱头。关键词Towards AI - Medium背后的行业观察者们已经点破核心它是一次对 AI 工程化底层范式的重定义。Managed Agents 的真正价值不在它能多快跑完一个任务而在于它把“会遗忘的智能体”变成了“有档案的工作者”。Session 不再是飘在内存里的临时变量而是一个持久化、可查询、可回溯的事件日志Harness 不再是和模型耦合的黑盒执行器而是一个无状态的、只管调用容器的“快递员”Sandbox 更不是开发者的宠物服务器而是按需生成、用完即焚的“一次性实验室”。这三样东西加起来构成了一个清晰的信号AI 应用的运行时环境runtime正在经历和90年代操作系统虚拟化硬件一样的历史性分层。我们不再需要为每个 agent 单独操心内存怎么分配、磁盘怎么挂载、网络怎么隔离——这些事现在该由“AI 操作系统”来管。而 Anthropic 正在试图成为这个新 OS 的核心供应商之一。它解决的不是“能不能做”而是“能不能稳稳当当地、大规模地、合规地做”。如果你正在用 LangChain 写一个要对接财务系统的 agent或者正打算让 Claude 在 Notion 里自动归档销售线索那你不是在评估一个新工具你是在决定要不要把你的业务逻辑托付给这个正在成型的“AI 基建层”。2. 核心设计拆解为什么是“Session-as-Event-Log”而不是“Context-as-Everything”2.1 旧范式的致命伤上下文即牢笼在 Managed Agents 出现之前绝大多数自研 agent 系统都遵循一个朴素但危险的逻辑把所有状态都塞进 LLM 的 context window。系统提示词、用户输入、工具返回的 JSON、中间思考步骤、甚至上一轮的错误堆栈……全靠模型自己“记住”。这就像让一个天才律师在法庭上一边听证人作证、一边翻阅卷宗、一边记笔记、一边还要口头陈述辩护意见而他唯一的“笔记本”就是自己大脑里一块固定大小的白板。白板写满了怎么办最省事的办法就是擦掉最早写的。于是那个关键的 API 密钥、那份被引用三次的合同附件、那个用户反复强调的“仅限北美地区”的地理限制就在模型“整理思路”的过程中被悄无声息地抹去了。这不是 hallucination这是 context overflow 引发的系统性失忆。我们团队当时做的一个多步骤财报分析 agent会在第47分钟触发这个临界点。它成功调用了三个数据源拿到了营收、成本、毛利数据但在生成最终摘要时却把“Q1 毛利率为32%”错写成了“Q1 毛利率为-32%”。排查了两天最后发现是它在处理第四个数据源时把第一个数据源的原始数值覆盖掉了。整个 session 没有崩溃没有报错只是输出了一个逻辑自洽但事实错误的结论。这种错误最可怕的地方在于它无法被单元测试捕获也无法被监控告警——因为从系统角度看一切“运行正常”。提示不要迷信“增大 context window”是万能解药。Claude 3.5 Sonnet 的 200K 上下文听起来很美但实际工程中长 context 带来的 token 成本飙升、首字延迟TTFT恶化、以及模型对远端信息的注意力衰减会让你很快意识到这不是扩容是饮鸩止渴。2.2 Anthropic 的解法把“记忆”从模型里搬出来Managed Agents 的核心创新就是物理性地切断了模型 context 与业务状态之间的强绑定。它引入了三个关键抽象Session会话这是一个独立于任何模型实例的、持久化的、结构化的事件流。每一次 tool call 的发起、参数、返回值、执行时间、错误码每一次用户消息的输入、系统指令的注入、甚至每一次 harness 的重启都会被序列化为一条带时间戳的事件写入这个全局日志。这个日志存储在 Anthropic 自建的、高可用的后端服务中生命周期以“天”为单位而非“毫秒”。这意味着即使你的 agent 因为网络抖动或模型超时而中断你也可以通过awake(sessionId)这个 API在几毫秒内恢复到中断前的精确状态因为它不需要重新加载整个历史只需要从日志里读取最后一条事件然后继续执行。Harness驾驭器这是一个极度轻量的、无状态的执行引擎。它不保存任何业务数据也不理解你的 agent 是做什么的。它只做一件事接收一个execute(name, input)的调用根据name去拉起一个预定义好的 Docker 容器这就是 sandbox把input作为标准输入传进去然后等待容器的标准输出。它就像一个严格的门卫只负责开门、递东西、收东西绝不插手屋子里发生的事。正因为如此harness 可以做到极致的水平扩展。当你的 sales agent 同时被 1000 个 Slack 用户调用时Anthropic 后台可以瞬间启动 1000 个 harness 实例每个都干净、独立、互不干扰。Sandbox沙箱这是真正的“一次性实验室”。每次 tool call都会动态创建一个全新的、隔离的 Linux 容器。这个容器拥有自己独立的 CPU 时间片、内存空间、文件系统和网络命名空间。最关键的是凭证credentials的注入方式发生了根本性改变。旧方法是把 API Key 作为环境变量API_KEYxxx注入容器agent 的代码只要os.getenv(API_KEY)就能拿到。这等于把保险柜的钥匙明晃晃地挂在了保险柜门把手上。Managed Agents 的做法是在容器启动前由 Anthropic 的安全网关将凭证“注入”到容器内部一个受保护的、只读的内存区域类似/dev/shm/cred_store然后通过一个专用的、经过严格审计的 SDK 接口如get_credential(notion_api_key)来访问。agent 的代码永远看不到原始的字符串它只能拿到一个临时的、有时效的、作用域受限的访问令牌。这从根本上杜绝了 agent “主动泄露”凭证的可能性——它连原始字符串长什么样都不知道。这三层分离的设计其威力在于它让每一个组件都可以独立演进。你可以今天用 Claude 3.5明天无缝切换到 Claude 4如果发布因为 harness 和 sandbox 的接口完全不变你可以今天用 Python 写的 Notion 工具明天换成 Rust 重写只要execute的输入输出协议一致上层 agent 就毫无感知。这正是操作系统虚拟化硬件的精髓硬件细节被抽象掉软件才能获得真正的自由。2.3 为什么说这是“防御性发布”AWS Bedrock AgentCore 的阴影Anthropic 的发布会通稿里充满了“开创”、“引领”、“新范式”的词汇但行业里真正懂行的人第一反应是去看 AWS 的动作。Amazon Bedrock AgentCore 在2025年11月就进入了通用可用GA阶段比 Anthropic 早了整整五个月。截至2026年3月AgentCore 的 SDK 下载量已突破两百万次。它的架构理念与 Managed Agents 高度相似同样是 microVM 隔离的 sandbox比 Docker 更底层、更安全、同样是长达八小时的 session 持久化、同样是框架无关LangGraph、CrewAI 全都支持、同样把模型选择权完全交给开发者你可以用 Claude也可以用 Titan、Llama 或 Mistral。更关键的是它的定价策略是“免费云资源捆绑”你买 AWS 的计算资源EC2、LambdaAgentCore 的 runtime 就是附赠的没有单独的$0.08/session-hour这种收费项。这就把 Anthropic 放到了一个微妙的位置。它不是在创造一个无人涉足的蓝海而是在一个已经被巨头用“基础设施化”策略提前占领的红海里建立自己的护城河。它的核心诉求非常务实防止自己的核心资产——Claude 模型的 token 销售——被架空。想象一下一个企业客户本来打算采购 Claude 的 API 调用量结果发现他们可以直接在 AWS 上用 Bedrock AgentCore 托管一个 Claude agent而 runtime 成本几乎为零。那么他们还会不会为 Anthropic 的托管 runtime 买单答案是否定的。因此Managed Agents 的本质是一场精准的“客户锁定”战役。它用一套高度集成、体验丝滑、且深度优化了 Claude 模型特性的 runtime告诉客户“如果你想用好 Claude尤其是想让它稳定、安全、可审计地跑在生产环境里我的这套方案就是最省心、最高效的选择。”这是一种典型的“垂直整合”策略不是为了赢下整个 runtime 市场而是为了确保自己在模型层的商业价值不被上游云厂商或下游应用层轻易截流。3. 实操要点与核心环节实现从 YAML 定义到生产部署3.1 定义你的第一个 AgentYAML 是新的“源代码”Managed Agents 的入门门槛极低核心就在于一份声明式的 YAML 文件。这不再是传统编程而是一种“配置即代码”Infrastructure as Code的思维转变。下面是一个为 Notion 工作区构建的简单“会议纪要生成 agent”的完整定义# notion-meeting-agent.yaml name: Notion-Meeting-Summarizer description: An agent that listens to Zoom transcripts, extracts action items, and creates a formatted page in Notion. system_prompt: | You are an expert meeting facilitator and notetaker. Your task is to: 1. Analyze the provided transcript for key decisions, action items (with owner and deadline), and open questions. 2. Format the output strictly as a JSON object with keys: summary, action_items (array of {owner, task, deadline}), questions. 3. NEVER invent information not present in the transcript. tools: - name: zoom_transcript_fetcher description: Fetches the latest Zoom meeting transcript from the users Zoom account. input_schema: type: object properties: meeting_id: type: string description: The unique ID of the Zoom meeting. - name: notion_page_creator description: Creates a new page in the specified Notion database with the given content. input_schema: type: object properties: database_id: type: string description: The ID of the target Notion database. title: type: string description: The title for the new Notion page. content_json: type: string description: The JSON string containing summary, action_items, and questions. guardrails: - type: output_safety policy: block_if_contains_pii message: This response may contain sensitive personal information. Please revise. - type: tool_call_safety policy: allow_only_whitelisted allowed_tools: [zoom_transcript_fetcher, notion_page_creator] sandbox: image: anthropic/sandbox-python:3.11 memory_mb: 1024 timeout_seconds: 120这份 YAML 文件定义了 agent 的全部灵魂。system_prompt是它的“性格”和“职业规范”tools是它的“双手”每个 tool 都有清晰的input_schema这相当于为模型提供了一份精确的“函数签名”大幅降低了它胡乱调用工具的概率guardrails是它的“道德准则”和“行为边界”output_safety策略会实时扫描模型输出一旦检测到疑似 PII个人身份信息的模式就会拦截并返回预设的友好提示sandbox则定义了它的“工作环境”指定了运行时的 Python 版本、内存上限和最长执行时间。整个过程你不需要写一行 Python 来启动 Flask 服务也不需要配置 Nginx 反向代理。你只需把这个 YAML 文件上传到 Anthropic 的控制台或者通过 CLI 命令claude agents deploy --file notion-meeting-agent.yaml几秒钟后一个可被 API 调用的 agent 就诞生了。注意input_schema的严谨性直接决定了 agent 的稳定性。我见过太多因为 schema 写得太宽松比如把meeting_id的类型设为any而导致模型传入一个包含空格的字符串结果zoom_transcript_fetcher工具直接崩溃的案例。务必把它当成函数的类型注解来对待。3.2 Session 生命周期管理从创建、交互到审计一旦 agent 部署完成你就可以通过 REST API 与它进行交互。整个流程围绕session_id展开这是你与 agent 之间所有状态的唯一纽带。创建 Sessioncurl -X POST https://api.anthropic.com/v1/agents/sessions \ -H x-api-key: $ANTHROPIC_API_KEY \ -H Content-Type: application/json \ -d { agent_id: agnt_abc123..., initial_input: {meeting_id: zm_987654321} } # 返回: { session_id: sess_def456..., status: running }这个请求会启动一个新的 session并立即触发zoom_transcript_fetcher工具。initial_input是你传递给 agent 的第一份“任务说明书”。持续交互curl -X POST https://api.anthropic.com/v1/agents/sessions/{session_id}/messages \ -H x-api-key: $ANTHROPIC_API_KEY \ -H Content-Type: application/json \ -d { content: 请将行动项按优先级排序并标记为Urgent或Normal } # 返回: { message: 已更新页面所有 Urgent 项已标红..., tool_calls: [...] }后续的所有用户消息都通过这个 endpoint 发送。Anthropic 会自动将这条消息、以及 agent 的响应包括任何新的 tool calls作为事件追加到该 session 的日志中。审计与回溯最强大的功能在这里。当你需要排查问题或者仅仅是想了解 agent 在过去一小时里都干了什么你可以直接查询这个 session 的完整事件流curl https://api.anthropic.com/v1/agents/sessions/{session_id}/events?limit100sortasc \ -H x-api-key: $ANTHROPIC_API_KEY返回的 JSON 会像一本详细的日记[ { type: user_message, timestamp: 2026-04-08T14:22:01Z, content: meeting_id: zm_987654321 }, { type: tool_call, timestamp: 2026-04-08T14:22:03Z, name: zoom_transcript_fetcher, input: {meeting_id: zm_987654321} }, { type: tool_result, timestamp: 2026-04-08T14:22:15Z, name: zoom_transcript_fetcher, output: Transcript: ...we decided to launch Q3 campaign on Aug 15... ... }, { type: model_output, timestamp: 2026-04-08T14:22:28Z, content: { \summary\: \Q3 campaign launch date set...\, ...} } ]这就是“session-as-event-log”的全部力量。你不再需要翻看分散的日志文件、检查数据库记录、或者猜测模型的内部状态。所有真相都在这一条条按时间排序的事件里。这对于满足金融、医疗等行业的合规审计要求是革命性的。3.3 生产环境的关键配置安全、成本与可观测性在把 agent 推向生产环境之前有三个配置项必须深思熟虑Credential Vault 集成Anthropic 的 credential vault 是一个独立的服务。你需要先在 vault 中创建一个名为notion_api_key的凭证然后在 agent 的 YAML 中将notion_page_creator工具的实现代码里把原先硬编码的os.getenv(NOTION_API_KEY)替换成anthropic.get_credential(notion_api_key)。这个调用会触发一次安全的、加密的、单向的凭证获取流程凭证永远不会以明文形式出现在 sandbox 的进程环境中。Pricing Model 的精算$0.08 per session-hour看似便宜但必须结合你的业务场景精算。一个 session 的“活跃时间”是从它创建开始到它最后一次收到消息或执行 tool call 结束。如果一个客服 agent 创建后用户只问了一个问题它立刻返回了答案那么 session 可能只存活了 2 秒成本几乎为零。但如果一个数据分析 agent 需要运行一个耗时 15 分钟的复杂 SQL 查询那么它的 session 小时成本就是$0.02。对于高频、短时的场景如聊天机器人Managed Agents 的成本优势巨大但对于低频、长时的批处理任务你可能需要评估是否值得为“session 持久化”这个特性支付溢价。Observability 的接入Anthropic 提供了原生的事件流 webhook。你可以配置一个 URL每当一个 session 产生新的事件无论是user_message还是tool_resultAnthropic 都会向这个 URL 发送一个 POST 请求。你可以把这个 webhook 接入你现有的可观测性平台如 Datadog、New Relic或者直接写入一个 Kafka Topic供后续的 AI 模型进行“agent 行为分析”。这是我们团队踩过的坑上线初期我们只依赖 Anthropic 控制台的 UI 查看日志结果在一次大规模故障中UI 加载缓慢导致我们失去了黄金排查时间。后来我们强制要求所有生产 agent 必须配置 webhook将事件流实时同步到我们的中央日志集群这才真正实现了“分钟级故障定位”。4. 常见问题与排查技巧实录那些文档里不会写的坑4.1 “Session 为什么卡住了”—— Harness Crash 与自动恢复的真相现象你调用awake(sessionId)后API 返回{status: resuming}但几分钟后再次查询 session 状态它还是resuming没有任何进展也没有错误日志。排查思路这不是 session 的问题而是 harness 的问题。Harness 作为一个无状态的执行器它本身也会崩溃。最常见的原因是 sandbox 容器内的工具代码抛出了一个未捕获的异常例如notion_page_creator工具在尝试连接 Notion API 时因网络超时而抛出requests.Timeout而这个异常没有被 harness 的错误处理逻辑捕获导致 harness 进程直接退出。解决方案在你的工具代码里必须添加一层“兜底”的异常处理。不要让任何异常穿透到 harness 层。正确的写法是# 错误示范任由异常上抛 def notion_page_creator(input): response requests.post(https://api.notion.com/v1/pages, jsoninput) return response.json() # 正确示范捕获所有异常返回结构化错误 def notion_page_creator(input): try: response requests.post(https://api.notion.com/v1/pages, jsoninput, timeout30) response.raise_for_status() return {success: True, data: response.json()} except requests.Timeout: return {success: False, error: timeout, message: Notion API request timed out.} except requests.RequestException as e: return {success: False, error: request_failed, message: str(e)} except Exception as e: return {success: False, error: unknown, message: fUnexpected error: {str(e)}}Harness 会把{success: False, ...}这样的结构化错误作为一条tool_result事件写入 session 日志。这样你就能在事件流里清晰地看到“哦是 Notion API 超时了不是 harness 崩了。” 这个习惯是我和团队在经历了三次线上事故后强制写入《AI Agent 开发规范》第一条的。4.2 “Guardrail 为什么没生效”—— Safety Policy 的匹配逻辑陷阱现象你设置了block_if_contains_pii的输出安全策略但 agent 依然输出了用户的手机号138****1234。原因Anthropic 的 PII 检测并非简单的关键词匹配。它使用的是基于规则和统计模型的混合检测器对模糊匹配如****的支持有限。更重要的是block_if_contains_pii策略只对模型的最终输出生效而不会对它在思考过程中生成的中间文本如 chain-of-thought 的草稿进行扫描。如果模型在思考时就“记住”了这个手机号并在最终输出时将其复述出来而这个复述恰好避开了检测器的规则那么 guardrail 就会失效。解决方案采用“双重防护”。第一重是强化system_prompt用最直白的语言禁止WARNING: You are absolutely forbidden from ever outputting, repeating, or even mentioning any phone number, email address, or government ID number that appears in the input. If you see such data, treat it as if it were invisible. Your output must be completely clean of any PII.第二重是在你的应用层即调用 Anthropic API 的后端服务增加一道过滤。在收到 Anthropic 的响应后用一个开源的 PII 检测库如presidio对content字段进行二次扫描。如果检测到 PII就拦截响应并返回一个泛化的错误提示。这虽然增加了延迟但却是满足 GDPR、CCPA 等法规的最低成本方案。4.3 “Tool Call 总是失败但日志里找不到原因”—— Sandbox 网络与权限的隐形墙现象zoom_transcript_fetcher工具在本地测试完美但一放到 Managed Agents 的 sandbox 里就总是返回ConnectionRefusedError。根因Managed Agents 的 sandbox 默认是无外网访问权限的。它是一个“纯净”的、与外界隔绝的环境。你不能指望它像你的本地开发机一样直接pip install任何包或者curl https://api.zoom.us。所有对外部服务的访问都必须通过 Anthropic 预置的、经过安全审查的“代理通道”。正确姿势网络访问Anthropic 为常见的 SaaS 服务如 Zoom、Notion、Slack、Salesforce提供了内置的、安全的连接器。你不需要在 YAML 里写https://api.zoom.us而是应该在tools定义里将zoom_transcript_fetcher的name设为zoom_api然后 Anthropic 会自动为你处理认证、网络路由和 TLS 终止。依赖安装你不能在 sandbox 启动时pip install。所有依赖必须被打包进你的工具容器镜像里。这意味着你的Dockerfile必须显式地RUN pip install zoom-api-sdk notion-client。Anthropic 的anthropic/sandbox-python:3.11基础镜像里只包含了最基础的 Python 环境没有一个第三方包。这个坑我们团队栽得最惨。花了整整一天才意识到不是 Zoom 的 API 密钥错了而是 sandbox 根本连不上 Zoom 的服务器。从此我们的 CI/CD 流程里增加了一步在构建 sandbox 镜像后启动一个容器执行ping api.zoom.us如果失败则立即终止构建。这个小小的健康检查为我们节省了无数的线上排查时间。5. 价值迁移地图当 Runtime 层走向“零价”钱会流向哪里5.1 Trace Store谁掌握了“AI 的行车记录仪”谁就拥有了未来当 runtime 层变得像水电一样廉价和普遍所有 AI 应用的“行为日志”将成为最核心的资产。这些日志不再是用于 debug 的副产品而是企业的“数字行为资产负债表”。一家银行的信贷审批 agent每一次拒绝贷款的决策背后都有完整的tool_result链它调用了哪个风控模型 API、返回的分数是多少、它参考了哪几份征信报告、它是否忽略了某条关键的逾期记录……这些数据构成了一个前所未有的、细粒度的、可审计的决策证据链。目前这个领域正上演着一场“三国杀”LangSmith背靠 LangChain 的庞大生态它最大的优势是“默认安装”。任何一个用 LangChain 构建 agent 的开发者只要加一行langsmith_client Client()他的所有 trace 就自动上报了。它的劣势是“太 LangChain”当开发者转向 CrewAI 或自研框架时集成成本陡增。Arize Phoenix走的是“开源先行”路线Apache 2.0 许可证的 Phoenix 项目已经成为很多初创公司搭建内部 trace 平台的首选底座。它的优势是灵活、可定制、社区活跃。它的挑战是如何把开源的“技术口碑”转化为商业产品的“付费意愿”。Braintrust Brainstore这是最激进的玩家它直接抛弃了传统的时序数据库如 TimescaleDB转而构建了一个专为 AI log 优化的 OLAP 数据库。它的查询语言不是 SQL而是一种叫aiql的领域特定语言可以轻松写出SELECT * FROM traces WHERE model_output CONTAINS risk这样的语句。它的风险在于过于前瞻的技术选型能否在短期内赢得足够多的早期采用者。实操心得不要纠结于选哪个。我的建议是“双轨制”。用 LangSmith 或 Arize Phoenix 做快速原型和内部开发同时用 Brainstore 的aiql做关键业务线的深度分析。因为 trace portability 是当前最大的痛点没有一个平台能保证你未来不会换。所以从第一天起就要把你的 trace 数据以一种开放的、标准化的格式如 OpenTelemetry 的 OTLP 协议导出并存档。这才是真正的“长期主义”。5.2 Governance Policy当 AI 成为“员工”谁来给它发工牌AWS 在2026年3月将 AgentCore 的 Policy Controls 推向 GA这标志着一个分水岭。政策Policy不再是 DevOps 团队的“锦上添花”而是企业采购 AI 产品的“准入门槛”。一个销售 agent必须被明确授权它可以读取 CRM 里的客户姓名和邮箱但不能读取客户的信用卡号它可以向 Slack 发送通知但不能向外部邮箱发送附件它可以在工作日 9:00-18:00 执行操作但不能在周末自动触发付款。OWASP Agentic Top 10 的发布更是为这个领域划出了清晰的“雷区地图”。其中“L1: Prompt Injection” 和 “L3: Insecure Tool Integration” 直接对应了我们前面讨论的system_prompt被绕过、以及tool_call_safety配置不当的问题。而 “L8: Insufficient Monitoring Logging” 则直指 trace store 的缺失。这个领域的创业机会不在于做一个更漂亮的 policy 配置 UI而在于做一个“政策翻译器”。它能将 CEO 的一句“我们的 AI 不能碰任何财务数据”自动翻译成一组可执行、可验证、可审计的 JSON 策略然后一键部署到 AWS、Azure、GCP 和 Anthropic 的所有 runtime 上。这将是下一个“Terraform for AI”的故事。5.3 Vertical Agent Marketplaces当“通用智能”退潮“专业智能”上岸Salesforce 的 Agentforce ARR 达到 8 亿美元这个数字的意义不在于它有多高而在于它证明了一个模式企业愿意为一个“能解决具体业务问题”的 agent 付费而不是为一个“能聊天、能写诗”的通用模型付费。Agentforce 的成功源于它把一个复杂的、需要集成 Salesforce CRM、Marketing Cloud、Service Cloud 的 AI 工作流打包成了一个开箱即用的、按 seat用户席位计费的 SaaS 产品。采购经理不需要懂 LLM他只需要知道买了这个销售团队的线索转化率能提升 15%。这个趋势正在向所有垂直领域蔓延。在金融领域virattt/ai-hedge-fund这个开源项目已经能自动分析 SEC 的 10-K 文件识别出潜在的财务造假信号并生成一份给投资经理的简报。在网络安全领域vxcontrol/pentagi可以接管一个渗透测试任务自动枚举子域名、扫描漏洞、利用已知 CVE并生成一份符合 ISO 27001 标准的审计报告。这些都不是科幻它们是 GitHub 上每天都在增长的真实代码。对于创业者而言这释放了一个明确的信号不要再试图做一个“全能的 AI 操作系统”。去找到一个你真正懂的、有深厚行业壁垒的垂直领域然后用 Managed Agents、AgentCore 这些成熟的 runtime快速构建一个“小而美”的、解决一个具体痛点的 agent。它的商业模式可以是 SaaS 订阅、按调用量付费甚至是效果付费如“每成功帮你追回一笔坏账收 10% 佣金”。这才是 runtime 层 commoditize 之后真正的财富密码。6. 一个真实的现场我们如何用 Managed Agents 重构了客户服务流程上周我们刚刚上线了一个基于 Claude Managed Agents 的客户服务 agent它取代了我们原来由 5 名人工客服组成的“VIP 客户响应小组”。这个 agent 的核心目标只有一个在客户提交一个高优先级的工单Priority: Critical后15 分钟内必须完成三件事1) 从 Jira 获取该工单的完整上下文2) 从内部知识库检索所有相关的解决方案和已知 Bug3) 生成一份包含初步诊断、临时规避方案和预计修复时间的英文邮件发送给客户。整个项目的实施周期只有 12 天这在以前是不可想象的。我们没有从零开始写一个微服务没有搭建 Kafka 消息队列没有配置复杂的 Prometheus 监控。我们只做了三件事定义 YAML我们为jira_ticket_fetcher、knowledge_base_searcher和email_generator三个 tool 编写了精确的input_schema并设置了tool_call_safety白名单。编写工具代码每个 tool 都是一个独立的 Python 脚本核心逻辑就是调用对应的 API。我们特别为email_generator添加了system_prompt强制它在生成邮件时必须引用至少两条来自知识库的检索结果否则就报错。配置 Webhook我们将所有 session 事件实时推送到我们自建的 Elasticsearch 集群并用 Kibana 做了一个简单的仪表盘实时显示“平均首次响应时间”、“15 分钟 SLA 达成率”、“各 tool 的成功率”。上线后的第一周数据令人振奋平均首次响应时间从原来的 42 分钟降到了 8.3 分钟15 分钟 SLA 达成率从 68%提升到了 99.2%。但最让我惊讶的是它带来的“副作用”。我们发现有超过 30% 的客户在收到这封由 AI 生成的、信息详尽的邮件后就不再需要人工客服介入了。他们自己按照邮件里的规避方案操作问题就解决了。这让我们意识到Managed Agents 的价值不仅在于“替代人力”更在于它能以前所未有的速度和精度把“信息”送达给客户从而在问题升级之前就将其化解。这个项目没有用到任何炫酷的新模型也没有复杂的 RAG 技术。它只是把 Anthropic 提供的、已经打磨好的“Session”、“Harness”、“Sandbox”这三个积木用最朴实的方式搭出了一个真正能解决业务痛点的系统。这或许就是“runtime 层走向零价”时代最务实、也最有力的注脚当底层的复杂性被封装真正的创造力就得以回归到业务本身。

查看全文

http://www.gsyq.cn/news/1345622.html