攀登比登顶更深刻地雕琢智慧:学习推理中的噪声奖励
Lv, Ang ; Xie, Ruobing ; Sun, Xingwu ; Kang, Zhanhui ; Yan, Rui
发布日期: 6/1/2025

摘要
近期关于通过强化学习(RL)对大型语言模型(LLM)进行后训练的研究通常集中在可以准确验证和奖励的任务上,例如解决数学问题。相比之下,我们的研究探讨了奖励噪声对涉及使用奖励模型进行LLM后训练的实际场景的影响。我们发现,大型语言模型在面对显著的奖励噪声时表现出强大的鲁棒性。例如,在数学任务中手动翻转40%的奖励函数输出,Qwen-2.5-7B模型仍能实现快速收敛,其在数学任务上的性能从5%提升至72%,而无噪声奖励训练的模型则达到了75%的准确率。令人惊讶的是,仅通过奖励关键推理短语(即推理模式奖励,RPR),如“首先,我需要”——而不验证答案的正确性——该模型就能达到峰值下游性能(Qwen-2.5-7B超过70%的准确率),与经过严格正确性验证和准确奖励训练的模型相当。认识到推理过程比最终结果更为重要,我们将RPR与有噪声的奖励模型结合使用。RPR有助于校准有噪声的奖励模型,减少潜在的假阴性结果,并提高LLM在开放性任务中的表现。这些发现表明,在预训练阶段提升模型的基础能力的重要性,并为推进后训练技术提供了见解。我们的代码和脚本可在 https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason 获取。