当前位置：首页 > news >正文

Agent如何做规划：ReAct、CoT、ToT思维框架详解

news 2026/7/3 12:29:14

你有没有见过这种AI让它做点事它一顿操作猛如虎结果发现把事情搞砸了。该查的资料没查该用的工具没用顺序乱七八糟最后还振振有词“我已经完成了任务。”这就是缺乏规划能力的典型表现。我之前踩过这个坑。让一个Agent帮我做市场调研我以为它会自动去查数据、整理分析、生成报告。结果它直接给我编了一份看起来很专业的假报告。从那以后我就明白了一个道理没有规划能力的Agent比没有Agent更危险。因为它会给你一个错误的信心让你以为事情做好了。先说个真实的痛点没有规划的Agent表现出来的样子其实很有迷惑性。你以为它在思考其实它只是在接话。你给一个指令它立刻给一个回应看起来反应很快、很积极。但仔细一看它根本没有想过这个任务分几步每一步需要什么信息如果中间出错了怎么办。它只是看起来在干活实际上在瞎做。更糟糕的是没有规划的Agent特别擅长一本正经地胡说八道。你让它查数据它可能直接编一个。你让它分析问题它可能给出一个听起来很有道理但完全站不住脚的结论。因为它没有检查自己的机制给出第一个答案就当最终答案了。为什么会这样因为它没有规划能力。规划的本质是在行动之前先想清楚。这件事要分成几步每一步需要什么信息如果走不下去了怎么办。这些问题没有在脑子里过一遍就直接动手做结果必然是漏洞百出。人做事也是这样。不经过思考就动手的人永远做不好事情。AI Agent同理。为什么规划很重要先看一个没有规划的Agent会怎么完成任务。任务帮用户安排一周的健身计划无规划Agent的做法它看到任务立刻开始生成计划。它不问用户的健身基础不考虑用户的时间安排不检查动作难度不提供备选方案。反正用户让做计划它就做一份计划出来做完就算完成任务。它甚至不知道自己做的计划有没有用因为根本没有评估这个环节。有规划Agent的做法它看到任务第一反应不是动手而是思考。它会想这是一个健身计划需要了解用户的情况才能制定。那就先问几个关键问题——用户的健身目标是什么身体状况如何每周能抽出多少时间锻炼。问清楚之后它才会开始制定计划。它会想计划制定好了但这个强度对用户来说合不合适需要设置一些检查点比如如果用户反馈某个动作太难就自动降低强度。它还会想万一用户这周要加班计划被打乱了怎么办那就准备一个简化版的备选计划。区别在哪里无规划Agent的逻辑是输入→生成→输出中间没有任何缓冲和检查。有规划Agent的逻辑是理解目标→收集信息→制定计划→评估风险→制定备选→输出执行。前者看起来快实际上做了大量无用功因为做出来的东西根本不能用。后者多花了几秒钟思考但产出的东西是真的靠谱的。这背后的本质区别是无规划Agent在执行有规划Agent在决策。执行和决策是两码事。执行是把事情做完决策是判断这件事值不值得做、应该怎么做、做成什么样算成功。没有决策的执行就是瞎干。规划的三个核心问题想让Agent真正具备规划能力需要解决三个核心问题问题一目标理解。Agent要能准确理解你想做什么。这听起来简单其实很难。用户的指令往往是模糊的。“帮我做一份健身计划”这句话信息量巨大——什么类型的健身增肌还是减脂用户有没有运动基础每周能练几天每次能练多久在家练还是去健身房。这些信息不明确出来的计划大概率是废的。所以规划的第一步往往是追问和澄清。Agent要学会在信息不足的时候停下来问问题而不是硬着头皮瞎猜。问题二步骤拆解。明确了目标之后要把大任务拆成小步骤。写一份市场调研报告这个任务拆开来是确定调研范围收集行业数据收集竞品信息分析数据发现问题提出建议。每个步骤还可以继续拆。收集行业数据又可以拆成查什么数据用什么工具查查到什么程度算够用。这一步考验的是Agent对任务的理解深度。拆得越细执行越准确拆得越粗执行越容易走偏。问题三自我检查。计划执行过程中要能发现问题和错误并及时调整。Agent执行任务的时候很容易陷入隧道视野——埋头干活不抬头看路。明明走错了方向还在继续往前冲。所以规划系统里必须有检查点让Agent定期停下来想一想我走的这条路对吗有没有更好的走法如果发现错了能不能回退重来三种主流规划框架解决上面三个问题业界已经沉淀出三种主流方法CoTChain of Thought思维链ReActReasoning Acting推理行动ToTTree of Thought思维树从简单到复杂一个一个说。CoT思维链什么是思维链思维链的核心思想很简单让Agent在回答之前先把思考过程说出来。普通模式下你问AI一个问题它直接给答案。思维链模式下你问AI一个问题它先输出推理过程再给答案。这个推理过程就是思维链。举个例子。普通模式问AI“2x 5 15求x等于多少” AI直接输出“x 5”。你不知道它怎么算出来的也不知道这个答案对不对。思维链模式问同样的问题AI会输出首先这是一个一元一次方程。然后把常数项移到等号另一边2x 15 - 5 10。接着两边同时除以2x 10 ÷ 2 5。最后验证把x 5代入原方程2×5 5 10 5 15等式成立。所以x 5。每一步怎么来的清清楚楚。为什么有效说出来会让思考更清晰。人在解释推理过程的时候往往会发现自己的漏洞。AI也一样。当它需要说清楚为什么就会减少瞎猜。思维链之所以有效背后的原理是语言是思维的载体让AI解释推理过程某种程度上是在强迫它认真想。不解释的时候它可以用概率最高的词来糊弄。解释了之后每一个逻辑步骤都必须自洽漏洞就藏不住了。还有一个原因是思维链把一个复杂问题拆成了多个简单步骤。每一步都是简单的推理比直接跳到最终答案容易得多。就像做数学题把大题拆成小题每小题单独做对大题自然就对了。适用场景思维链最适合两类任务。第一类是数学问题。数学推理有清晰的逻辑链条最适合用思维链来展示。Agent做数学题的时候如果先把推理步骤写出来往往能避免粗心导致的计算错误。第二类是逻辑推理。比如如果A则BB成立所以A一定成立吗这类问题。思维链能帮助Agent看清楚推理的结构避免跳步和循环论证。但思维链有局限。它适合一步接一步的问题不适合这一步有很多种走法的问题。数学推导是一条路走到底的但很多实际问题有分叉口——这一步往左还是往右效果完全不同。遇到分叉路口的问题思维链就不够用了需要更高级的框架。ReAct推理行动什么是ReActReAct比思维链更进一步。它不仅让AI说出思考过程还让AI把思考变成行动。不是一次性想完再执行而是边想边做边做边想。思维链的循环是思考→思考→思考想清楚了再行动。ReAct的循环是思考→行动→观察→思考→行动→观察每一步行动之后都停下来观察结果根据结果调整下一步的行动。打个比方。思维链像是一个人先把路线在脑子里想清楚然后出发一路不换方向走到终点。ReAct像是一个人出发了但每隔一段路就抬头看看我走对了吗前面有没有堵车需不需要换条路核心循环ReAct的循环由三个节点构成Thought思考、Action行动、Observation观察。Thought是Agent的推理环节它在分析当前情况、判断下一步该做什么。Action是Agent调用工具执行具体的操作比如搜索、计算、查询数据库。Observation是行动的结果Agent看到了结果会更新自己的认知然后进入下一轮循环。循环会一直持续直到Agent认为任务完成了。一个例子任务查特斯拉最近的新闻写一份简报如果不用ReActAgent会怎么干它可能直接搜特斯拉拿到一堆结果然后立刻开始写报告。这种做法的问题是什么没结构、没重点、不知道哪些信息重要。用ReAct的做法第一轮Agent先想用户需要特斯拉的简报但我需要先确定要查哪些方面。财报最重要新产品发布也很关键还有市场反应不能忽视。那就先从财报入手。所以第一轮的行动是调用搜索工具关键词特斯拉最新财报。第二轮Agent观察第一轮的结果搜到了财报数据营收多少、利润多少、同比变化。数据有了但光有财报不够还需要市场反应。第二轮的行动是调用搜索工具关键词特斯拉股价分析。第三轮Agent观察第二轮的结果股价下跌了可能跟财报不及预期有关。市场情绪偏悲观。那再查一下分析师怎么说。第三轮的行动是调用搜索工具关键词特斯拉分析师评级。第四轮Agent观察第三轮的结果主流分析师维持中性评级但下调了目标价。信息差不多了可以开始写了。第四轮的行动是生成报告。为什么有效复杂任务不能一步到位必须分阶段推进。ReAct的核心价值是把一个大问题分解成多个小问题每个小问题通过一次思考-行动-观察循环来解决。每解决一个小问题就向最终目标前进一点同时积累新的信息为下一步做准备。还有一个关键点ReAct有自我纠错的能力。Agent在观察环节能看到上一步的结果如果发现结果不对可以立刻调整方向。思维链没有观察环节想错了就一路错到底。ReAct加入了观察就像给AI装了一个回头检查的开关。ReAct是目前Agent开发中最常用的规划框架。大部分Agent任务都涉及工具调用而ReAct天然适合调用工具-获取结果-判断下一步这种模式。它的思考-行动-观察循环和Agent调用工具的工作流高度吻合。ToT思维树什么是思维树ToT比ReAct更激进。思维链是一条路走到底ReAct是走一段检查一段思维树是同时探索多条路每条路都试试看哪个更好。思维树的核心思想是遇到问题时先生成多个可能的方案然后对每个方案进行评估淘汰差的保留好的对好的方案继续分叉探索最后从多条路径中找到最优解。为什么需要多路探索有些问题一个方向想不通需要换条路试试。比如给创业项目起名字这个任务。一个方向是走科技感路线——星辰、曙光、凌霄另一个方向是走温暖感路线——归途、暖阳、知还再一个方向是走国际感路线——Wedo、Onek、Ovant。三个方向各有优劣不试怎么知道哪个最好用思维链只能走一条路走到死胡同才发现走不通。用ReAct可以走一段检查一段但如果第一步就选错了方向检查也救不了你。用ToT三条路同时探索哪个方向走得通就用哪个最后从多条路里选出最优解。ToT的工作流程第一步面对问题时先生成多个候选方案。比如创业项目起名字这件事先生成三个方向科技感、温暖感、国际感每个方向下面再想几个具体名字。第二步对每个方案进行初步评估。科技感的名字有没有歧义听起来会不会太冷温暖感的名字会不会太文艺不够商业国际感的名字翻译成英文好不好听第三步淘汰明显不行的保留有潜力的。比如评估发现科技感方向最稳妥温暖感方向太文艺那就重点发展科技感方向。第四步对保留的方案继续分叉。科技感方向继续探索星辰、曙光、凌霄、穹顶、玄霄……每个名字再想想对应的域名、商标注册难度。第五步综合评估选出最优解。综合考虑名字的好记程度、域名可用性、商标注册难度选出最合适的那一个。ToT的资源消耗ToT是三种框架里资源消耗最大的。思维链只需要跑一次推理ReAct需要跑多次循环ToT需要同时跑多个分支的推理。每个分支都要消耗token和计算资源最终还要在多个结果里做选择。所以ToT不是万能的。它适合开放性问题——没有标准答案需要多方案比较比如起名字、写文案、做创意策划。不适合封闭性问题——有标准答案做对了就行不需要多路探索。三种框架怎么选三种框架各有各的场景选错了就会浪费资源。CoT适合数学推导、逻辑推理、有标准答案的分类问题。特点是问题有清晰的推理链条一步接一步不需要回头。ReAct适合需要调用工具的复杂任务、实时信息查询、多步骤操作流程。特点是任务分多步完成每一步可能依赖上一步的结果需要边做边调整。ToT适合开放性任务、创意类任务、多方案比较的决策。特点是问题没有唯一解需要探索多种可能性从中选择最优。从使用频率来看ReAct是最常用的因为大部分Agent任务都涉及工具调用ReAct的思考-行动-观察循环天然适配这种场景。CoT用得也不少特别是在需要AI解释推理过程的场景。ToT用得相对少因为资源消耗大一般只有当问题确实需要多路探索时才用它。实际开发中三种框架经常组合使用。比如一个复杂任务可以外层用ToT探索大的方向内层用ReAct执行具体的步骤步骤内的简单推理用CoT。三层嵌套灵活应对不同层级的规划需求。规划的常见问题问题一规划太长上下文不够复杂任务可能需要几十步但上下文窗口有限。Agent不是无限聪明的它能同时处理的信息量是有物理极限的。解决这个问题的思路有几个方向压缩中间步骤。不记录每一步的完整推理过程只保留关键决策点。比如第一轮查到财报数据关键信息是营收增长15%而不是把完整的搜索过程和结果都存下来。使用外部记忆。把中间结果写到外部存储比如向量数据库或普通数据库需要的时候再读出来。这样上下文窗口就不用存所有信息只存索引就够了。分层规划。把大规划拆成小阶段每个阶段单独执行。第一阶段完成后清理上下文进入第二阶段。这样每次规划都控制在合理长度内。问题二规划错了一条路走到黑Agent有时候会迷之自信明知道走错了还继续。这在心理学上叫确认偏误——一旦形成判断就倾向于寻找支持这个判断的证据忽略反驳的证据。Agent也有这个问题。如果它的初始判断是错的它会倾向于选择性地关注支持这个判断的信息忽略否定的信息。解决方案增加检查环节。每隔几步就让Agent停下来问自己这个方向是对的吗有没有什么信号说明我可能错了如果有给自己拉响警报。设定回退机制。如果Agent发现走了几步之后方向不对允许回到之前的某个检查点换个方向重新来。不要硬撑着把错误的路走完。限制单步尝试次数。Agent做某个决策时如果试了N次还不成功就说明这个方向可能有根本性问题强制换方向。问题三工具调用失败规划卡住规划是纸上的工具是真实的。纸上写得再漂亮工具不配合也白搭。网络超时、API限流、权限不足、数据格式不对——这些都可能导致工具调用失败。一个好的规划系统要为可能的失败提前做准备。解决方案准备备选工具。Plan A是调用Google搜索Plan B是调用DuckDuckGoPlan C是调用Wikipedia API。三个工具功能相近一个不行换另一个规划不依赖某一个特定工具。提前规划失败处理。比如调用搜索工具失败Agent要能判断是因为网络问题还是因为关键词不对如果是关键词不对就调整关键词重试如果是网络问题就等几秒再试或者换工具。允许动态调整计划。规划不是一成不变的。工具调用失败后Agent应该能调整计划原来的路线走不通那就换条路原来的工具用不了那就找替代工具。我的观点规划能力是Agent从能用到好用的关键。没有规划的Agent就像一个不会做事的实习生——交代什么做什么但不会主动思考。你说一步它做一步多一步都不会。你没考虑到的情况它也不会帮你考虑。这种Agent用起来很累你需要事无巨细地把每个环节都想清楚Agent只是帮你执行。有规划的Agent才能真正理解你的目标然后找到路径。你只需要说帮我做一份市场调研Agent会自动拆解任务、调用工具、收集信息、生成报告。它知道这件事应该分几步每步做什么遇到问题怎么调整。你不需要想那么细Agent帮你想。但规划也有边界。规划的前提是Agent知道有什么工具可以用、有什么限制要遵守。如果Agent根本不知道某个工具存在它就不可能规划出调用这个工具这一步。如果Agent不知道某个领域的知识它规划出来的方案就可能在专业问题上出错。所以规划能力不是孤立的它需要配合其他能力才能发挥作用。丰富的工具生态决定Agent能做什么准确的知识储备决定Agent的规划有没有专业性灵活的回退机制决定Agent错了能不能改。这三者配合才能做出真正靠谱的规划。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.gsyq.cn/news/1333060.html