Command Palette

Search for a command to run...

1 个月前

基于强化学习的语言模型规划:理论视角下的优势与陷阱

Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

基于强化学习的语言模型规划:理论视角下的优势与陷阱

摘要

近年来,强化学习(RL)方法显著提升了大型语言模型(LLMs)的规划能力,但其有效性的理论基础仍不清晰。在本工作中,我们通过一种可处理的基于图的抽象方法,系统研究了强化学习在规划中的优势与局限,重点关注策略梯度(PG)与Q-learning方法。理论分析表明,监督微调(SFT)可能引入基于共现的虚假解,而强化学习主要通过探索实现正确规划,凸显了探索在促进模型泛化能力中的关键作用。然而,我们也发现,策略梯度方法存在多样性崩溃问题:在训练过程中输出多样性逐渐下降,即使在达到完美准确率后,该现象仍持续存在。相比之下,Q-learning具备两大优势:支持离策略学习,且在收敛时能够保持输出多样性。我们进一步证明,精心设计奖励函数对于防止Q-learning中的奖励黑客(reward hacking)现象至关重要。最后,我们将该理论框架应用于真实世界的规划基准任务Blocksworld,实证验证了上述行为在实际场景中确实存在。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供