当前位置: 首页 > news >正文

【Agent智能体8 | 反思设计模式-大语言模型反思机制的四个演进阶段】

声明本篇博客是以吴恩达的【Agent智能体】教程为基础并对其中的内容做了笔记整理以及个人收获的总结。大模型的反思机制跟人类一样有时会反思自己的输出并寻求改进。这篇文章主要是介绍反思机制的演进过程。人类的反思机制Reflection - humans这张图展示了人类在日常工作中是如何运用“反思”的人类写出一封初版邮件发现问题在发送前进行自我检查发现了几个问题“下个月next month”缺乏具体日期。把“free”打成了“fre”。忘记在文末署名。改进经过反思和修改输出了完善后的第二版邮件Email V2总结写初稿→\rightarrow→审查→\rightarrow→修改出终稿这是人类保证工作质量的本能习惯。智能体 AI 的反思机制Reflection - Agentic AI智能体的反思机制也是类似的我们可以将人类的反思机制映射到 AI 大语言模型的工作流中开始给 LLM 下达“写一封邮件”的指令LLM 生成第一版草稿Email V1。反思在传统的应用中V1 会被直接输出给用户。但在智能体工作流中系统会将被放入一个硬编码的反馈循环中要求 LLM “反思并写出改进后的第二版Reflect and write improved second draft”。通过让 LLM 扮演“审查者”的角色对自己的初始输出进行纠错从而输出质量更高的最终版本Email v2。这个例子是把这个流程硬编码下来先提示LLM写一遍再提示它反思和改进。类似的流程也能优化其他类型的输出例子如下用于改进代码的反思Reflection to improve code这个例子展示了反思机制在编程中的具体应用开始要求写一段代码task X第一个 LLM 生成初版代码code V1。反思多模型协作初版代码被送入LLM 2进行审查。图中标注LLM 2 可以是一个不同的模型例如专门针对代码或逻辑训练的推理模型。LLM 2 检查 Bug 并写出改进后的第二版代码do_task_v2。这个例子告诉我们在复杂任务中生成代码和审查代码可以由不同的 AI 模型负责利用“交叉检查”来提升代码的质量不同的LLM有不同的优势要合理利用与其只让LLM反思代码但事实证明外部反馈来自LLM之外的新信息反思的效果会更加强大例子如下结合外部反馈的反思Reflection with external feedback这个图展示了反思机制的最高阶形态——引入真实的外部运行环境开始LLM 写出初版代码code V1后不再仅仅依赖另一个模型去找 Bug而是直接执行代码execute code。获得真实反馈代码运行后会产生实际的输出或报错信息例如图中的SyntaxError: unterminated string literal...语法错误。基于反馈的反思将这些真实的报错信息和初版代码一起交给 LLM。LLM 基于具体的执行错误进行反思从而精准定位并修复问题输出第二版代码。总结一句话通过“实践”来检验真理。这种利用反馈进行的方式比LLM自己反思效果要更好输出的结果质量要更高总结人类本能→\rightarrow→AI 内部自我反思→\rightarrow→多 AI 模型交叉反思→\rightarrow→基于外部真实环境反馈的反思。通过这篇文章我们不能再简单的把大模型当成一个简单的“你问我答”的聊天工具传统的直接生成而是要把它看作一个拥有“反思能力”的智能体Agent。如果这篇文章对你有帮助欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力
http://www.gsyq.cn/news/1405756.html

相关文章:

  • Halcon实战:从单张到批量,高效读取图片的三种核心方法
  • 神经形态AIoT开发新范式:NMLOps与云原生平台实践
  • cpm-ant-10b应用场景探索:解锁AI在客服、创作与代码生成领域的强大潜力
  • AI搜索排名服务不同预算档位的决策参考:从四档需求看选择 - 资讯纵览
  • Formbricks:开源问卷调查工具,用户研究和产品反馈神器
  • 恶搞整活指南:如何让好兄弟以为在下载三角洲外挂,结果却安装了暗区突围?
  • 终极指南:如何在Windows电脑上直接安装和运行安卓应用(无需模拟器)
  • Open-LLaMA 3B V2 Wizard Evol Instruct V2 196k:华为昇腾平台上的高性能开源语言模型完全指南 [特殊字符]
  • 中国教育研究(香港)-收费1500-期刊-只有issn-维普收录
  • KMS_VL_ALL_AIO:一站式智能激活解决方案,告别Windows和Office授权烦恼
  • Cola-DLM部署优化终极指南:10个GPU内存管理与推理加速技巧 [特殊字符]
  • 终极指南:在Windows 10上免费安装Android子系统的完整教程
  • 你的内容被AI“看见“了吗?一套自测大模型内容可见性的完整方法
  • Livox雷达驱动点云格式实战:从CustomMsg到PCL标准格式的转换与选择
  • 如何扩展SD_PixelArt_SpriteSheet_Generator:自定义训练与模型微调指南
  • 昌都外贸网站开发找哪家?WaiMaoYa 外贸鸭实景展示产能与实力,精准打动海外大客户 - 外贸独立站运营
  • Taotoken的TokenPlan套餐如何为高频用户带来显著成本优势
  • 5步深度配置方案:打造高效Klipper 3D打印控制界面
  • 基于FPAA的仿生六足机器人分层CPG控制器设计与实现
  • AI教材生成新趋势!低查重AI工具让教材编写轻松又高效
  • TimeMoE-200M实战案例:用200M参数模型实现工业传感器数据精准预测
  • 普宁注册公司哪家代办好|注册公司全程不跑腿怎么做到 - 品牌观察
  • GeckoLib动画引擎:为Minecraft模组注入灵魂的完整指南
  • 终极指南:如何让你的Linux系统轻松支持rtl88x2bu无线网卡
  • 3个步骤,让诺基亚时代的Java游戏在你的现代设备上重生
  • 深度解析:Go 语言 GMP 调度器模型与内核线程探测
  • 2026江苏长晶科技(JSCJ)优质授权代理商推荐 - 资讯纵览
  • 广州商业场所除四害服务选择指南:2026年企业必备 - 资讯速览
  • 网卡公司排名前十怎么筛?选型负责人的多家实地经验复盘 - 资讯纵览
  • 2026武汉广告公司性价比排行榜,选哪家不踩坑? - 资讯速览