HyperAI超神经

ProRL:延长强化学习扩展大型语言模型的推理边界

Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
发布日期: 6/2/2025
ProRL:延长强化学习扩展大型语言模型的推理边界
摘要

近期在以推理为中心的语言模型方面的进展突显了强化学习(Reinforcement Learning, RL)作为一种有前景的方法,用于使模型与可验证的奖励对齐。然而,关于RL是否真正扩展了模型的推理能力,还是仅仅放大了基础模型分布中已存在的高奖励输出,以及持续增加RL计算资源是否可靠地提升推理性能的问题,仍然存在争议。在这项工作中,我们通过展示长时间RL(Prolonged Reinforcement Learning, ProRL)训练可以揭示基础模型即使在大量采样下也无法获得的新颖推理策略,从而挑战了现有的假设。我们引入了一种新的训练方法——ProRL,该方法结合了KL散度控制、参考策略重置和多样化的任务套件。我们的实证分析表明,经过RL训练的模型在广泛的pass@k评估中始终优于基础模型,包括基础模型无论尝试多少次都无法成功的情景。此外,我们还发现推理边界的改进与基础模型的任务胜任力和训练时长密切相关,这表明RL可以在一段时间内探索并填充解决方案空间的新区域。这些发现为理解RL在何种条件下有意义地扩展语言模型的推理边界提供了新的见解,并为未来关于长时间范围内的强化学习推理研究奠定了基础。我们发布了模型权重以支持进一步的研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B