Command Palette
Search for a command to run...
Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

摘要
近年来,强化学习(RL)方法显著提升了大型语言模型(LLMs)的规划能力,但其有效性的理论基础仍不清晰。在本工作中,我们通过一种可处理的基于图的抽象方法,系统研究了强化学习在规划中的优势与局限,重点关注策略梯度(PG)与Q-learning方法。理论分析表明,监督微调(SFT)可能引入基于共现的虚假解,而强化学习主要通过探索实现正确规划,凸显了探索在促进模型泛化能力中的关键作用。然而,我们也发现,策略梯度方法存在多样性崩溃问题:在训练过程中输出多样性逐渐下降,即使在达到完美准确率后,该现象仍持续存在。相比之下,Q-learning具备两大优势:支持离策略学习,且在收敛时能够保持输出多样性。我们进一步证明,精心设计奖励函数对于防止Q-learning中的奖励黑客(reward hacking)现象至关重要。最后,我们将该理论框架应用于真实世界的规划基准任务Blocksworld,实证验证了上述行为在实际场景中确实存在。