17 天前
ReAct:在语言模型中协同推理与行动
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao

摘要
尽管大型语言模型(LLMs)在语言理解与交互式决策任务中展现出卓越的能力,但其在推理(如思维链提示,chain-of-thought prompting)与行动(如动作规划生成)方面的能力长期以来主要被作为独立议题进行研究。本文提出一种新的方法——ReAct,旨在以交错方式进行推理轨迹与任务特定动作的联合生成,从而实现两者之间的更强协同效应:推理轨迹帮助模型推导、追踪并动态更新行动规划,同时有效应对异常情况;而具体动作则使模型能够与外部资源(如知识库或环境)交互,获取额外信息以支持决策。我们将ReAct方法应用于一系列多样化的语言理解与决策任务,实证表明其性能显著优于当前最先进的基线方法,并在人类可解释性与可信度方面优于缺乏推理或行动机制的模型。具体而言,在问答任务(HotpotQA)与事实验证任务(Fever)中,ReAct通过与简单的维基百科API交互,有效缓解了传统思维链推理中常见的幻觉(hallucination)与错误传播问题,生成更接近人类思维过程的任务求解轨迹,其可解释性显著优于缺乏推理轨迹的基线模型。在两个交互式决策基准测试(ALFWorld与WebShop)中,ReAct分别以绝对成功率超越模仿学习与强化学习方法34%与10%,且仅需一至两个上下文示例进行提示。项目主页及代码地址:https://react-lm.github.io