1 个月前

基于强化学习的语言模型规划：理论视角下的优势与陷阱

Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

摘要

近年来，强化学习（RL）方法显著提升了大型语言模型（LLMs）的规划能力，但其有效性的理论基础仍不清晰。在本工作中，我们通过一种可处理的基于图的抽象方法，系统研究了强化学习在规划中的优势与局限，重点关注策略梯度（PG）与Q-learning方法。理论分析表明，监督微调（SFT）可能引入基于共现的虚假解，而强化学习主要通过探索实现正确规划，凸显了探索在促进模型泛化能力中的关键作用。然而，我们也发现，策略梯度方法存在多样性崩溃问题：在训练过程中输出多样性逐渐下降，即使在达到完美准确率后，该现象仍持续存在。相比之下，Q-learning具备两大优势：支持离策略学习，且在收敛时能够保持输出多样性。我们进一步证明，精心设计奖励函数对于防止Q-learning中的奖励黑客（reward hacking）现象至关重要。最后，我们将该理论框架应用于真实世界的规划基准任务Blocksworld，实证验证了上述行为在实际场景中确实存在。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

基于强化学习的语言模型规划：理论视角下的优势与陷阱

Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

摘要

用 AI 构建 AI

Hyper Newsletters