当前位置: 首页 > news >正文

[PaperReading] REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

目录
  • REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
  • TL;DR
  • Method
    • 实验设计
      • 不同方法的对比
    • BadCase分析
  • Q&A
  • Experiment
    • WebShop​​
  • 总结与思考
  • 相关链接

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

link
时间:22.10
单位:Princeton University && Google Brain
相关领域:Agent
作者相关工作:Shunyu Yao
被引次数:4520
项目主页:

  • blog: https://research.google/blog/react-synergizing-reasoning-and-acting-in-language-models/
  • 主页:https://react-lm.github.io/
  • code: https://github.com/ysymyth/ReAct

TL;DR

大语言模型LLMs的推理能力(reasoning)与执行能力(acting)通常作为两个Topic分开研究。本文提出ReACT(Reasoning and Acting),研究如何使两者更好协同,Reasoning能力使模型推导及更新规划,而Acting使用模型可以从环境中接口里获取到更多知识信息。

Method

实验设计

Domains: 在这两个任务中,模型​​仅接收问题/陈述本身​​,而​​不直接获取​​任何可能包含答案的支撑文档或段落。这意味着模型必须完全依赖其​​内部知识​​或通过​​与外部环境交互​​来获取必要信息。
Action Space
Wikipedia Web API​​有三种接口:

  • search:根据给定的实体名称(如"George Washington")进行搜索。
  • lookup:在当前打开的维基百科页面中,查找包含特定字符串的下一句话。
  • finish:终止当前任务,并提交最终答案。

image

不同方法的对比

image

HotPotQA:multi-hop question answering,多轮对话测试集
FEVER:fact verification,事实验证的Benchmark

  • CoT-SC:​​ SC是 ​​Self-Consistency​​ 的缩写。其核心做法是在推理时,通过提高解码温度(temperature)来从语言模型中采样生成多条(例如21条)不同的推理轨迹,然后通过​​多数投票​​(majority vote)的方式从这些答案中选择最一致的一个作为最终答案,以此提高准确性和鲁棒性。
  • ReAct → CoT-SC​​: 指首先尝试使用ReAct方法(通过API与环境交互获取外部信息)来解决问题。如果ReAct在设定的最大步数内(HotpotQA为7步,FEVER为5步)未能得出答案,则​​回退(back off)​​ 到使用CoT-SC方法,依赖模型的内部知识进行推理。
  • ​​CoT-SC → ReAct​​: 指首先使用CoT-SC方法进行推理。如果CoT-SC采样产生的多个答案中,得票最高的答案其票数未能超过总采样数的一半(即 n/2),表明模型的内部知识对于此问题并不自信或存在分歧,此时则回退到使用ReAct方法,通过外部交互来寻找答案。

BadCase分析

  • CoT的主要问题​​:​​幻觉(Hallucination)​​。这是CoT最主要的失败模式(占56%),即推理链条中混入了不正确的事实或信息。
  • ReAct的主要问题​​:​​推理错误(Reasoning Error)​​ 和​​搜索结果错误(Search Result Error)​​。

Q&A

Q:图1d这种模式对于现在agent很常见,为什么会是本文创新点?
A:“思考-行动-观察”的循环模式如今已成为构建AI Agent的常见范式。但在本文发表的当时(2022年),这是一个重要的​​范式创新​​。本文是​​首个​​系统性地、通用地将“推理”和“行动”在语言模型中​​交织(interleave)​​ 起来的工作,并为其命名(ReAct)。
Q:文中的Acting指得是什么?
A:Acting​​ 指的是模型能够发出​​可执行的动作​​,与​​外部环境(external environment)​​ 进行交互,从而获取新的信息或改变环境状态。在​​知识密集型任务​​(如HotpotQA, FEVER)中,Acting 特指通过一个简单的 ​​Wikipedia API​​ 进行交互,动作包括:search, lookup, finish。

Experiment

WebShop​​

WebShop是一个模拟的在线购物网站环境,它包含了从亚马逊爬取的​​118万种真实商品​​和​​1.2万条人类指令​​。
智能体(Agent)的任务是根据用户的​​自然语言指令​​购买符合要求的产品。指令通常包含多项属性要求,例如:“I am looking for a nightstand with drawers. It should have a nickel finish, and priced lower than $140”(我需要一个带抽屉的床头柜。它应该是镍色 finish,并且价格低于140美元)。
​​评估指标 (Evaluation Metrics)​​

  • 成功率 (Success Rate, SR)​​: 智能体最终购买的商品​​完全满足​​指令中所有要求的任务比例
  • 平均得分 (Score)​​: 一个更细粒度的指标,计算智能体购买的商品所满足的指令属性要求的百分比,然后在整个测试集上求平均。
    基线模型 (Baselines)​​
  • 作者将ReAct与之前需要大量数据训练的方法进行比较:
  • 模仿学习 (Imitation Learning, IL)​​: 在1,012条人类标注的轨迹上进行训练
  • ​模仿+强化学习 (IL+RL)​​: 在IL的基础上,额外使用10,587条训练指令进行强化学习优化。
    image

总结与思考

比较早想到结合Reasoning与Acting的方法,也设计了比较严谨来证明有效性。可以被认为是Agent系列工作的先驱之作。

相关链接

https://zhuanlan.zhihu.com/p/1921961266257336099

http://www.gsyq.cn/news/12244.html

相关文章:

  • 深入解析:【Java开发:Lambda表达式】
  • 算法第一章作业
  • 采购系统
  • PostgreSQL patroni 高可用 1:ectd 安装和配置
  • 实用指南:老题新解|素数对
  • 人文领域的创新乏力:当价值内卷遇上元人文AI的破局之光
  • [iOS] OC高级编程 - 引用计数 (1) - 详解
  • AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断 - 指南
  • unordered_map性能被吊打!我用基数树让内存池性能暴涨几十倍的秘密
  • 深入解析:TENGJUN“二合一(2.5MM+3.5MM)”耳机插座:JA10-BPD051-A;参数与材质说明
  • CentOS 9服务器版 部署Zabbix7.0 server端 - 详解
  • US$189 VVDI2 BMW FEM amp; BDC Functions Authorization Service With Ikeycutter Condor
  • 模式组合应用-享元模式 - 详解
  • Go 1.26 内置函数 new 新特性
  • 重要公式 - Emi
  • 软件构造中的数据处理(sql) 6章
  • Gitee vs. GitLab:中国开发者为何选择本土代码托管平台?
  • US$39 BAV-Key Adapter for Yanhua Mini ACDP
  • 级数 - Emi
  • 基于STM32的正弦波逆变器设计
  • 深入解析:SDL2视频渲染
  • 使用Ollama 0.12.2本地部署大模型,友好界面对话,开启飞行模式数据完全存在本地
  • 详细介绍:四大金刚之计算机网络
  • 物联网字节校验常用方法
  • 实用指南:RabbitMQ 核心组件详解与持久化日志队列实现方案
  • 完整教程:Zookeeper与Kafka:分布式系统中的协调与消息队列
  • 外发图纸如何控制的最佳实践与注意事项
  • Gitee:中国开发者生态的数字底座正在重构技术格局
  • 文件同步软件是什么?主要有哪几种类型?
  • “铸网2025”山东省工业和互联网CTF竞赛-web