15 天前
ReST 遇上 ReAct:多步骤推理 LLM Agent 的自提升
Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

摘要
回答复杂的自然语言问题通常需要多步推理并整合外部信息。目前已有若干系统将知识检索与大型语言模型(LLM)相结合,以应对此类问题。然而,这些系统仍存在多种失效情形,且由于与外部知识的交互过程不可微分,我们无法直接通过端到端训练来修复这些问题。为解决上述缺陷,我们提出了一种类似ReAct风格的LLM智能体,具备基于外部知识进行推理与行动的能力。进一步地,我们采用一种类ReST的方法,通过在历史轨迹上迭代训练,结合渐增批次的强化学习与人工智能反馈,实现智能体的持续自我优化与自我蒸馏。从一个提示引导的大型模型出发,仅经过两次算法迭代,即可生成一个微调后的小型模型,在复杂组合型问答基准测试中达到与原模型相当的性能,同时参数量减少两个数量级。