HyperAI超神经

RM-R1:奖励建模作为推理

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji
发布日期: 5/8/2025
RM-R1:奖励建模作为推理
摘要

奖励建模对于使大型语言模型(LLMs)与人类偏好对齐至关重要,尤其是在通过人类反馈进行强化学习(RLHF)的过程中。为了提供准确的奖励信号,奖励模型(RM)应在分配分数或做出判断之前激发深度思考并进行可解释的推理。然而,现有的RM要么生成不透明的标量分数,要么直接预测出首选答案,这使得它们难以整合自然语言批评,从而缺乏可解释性。受到近期在推理密集型任务中长链推理(CoT)进展的启发,我们假设并通过验证发现,将推理能力集成到奖励建模中可以显著提高RM的可解释性和性能。在这项工作中,我们引入了一种新的生成式奖励模型——推理奖励模型(Reasoning Reward Models, ReasRMs),该模型将奖励建模视为一项推理任务。我们提出了一种以推理为导向的训练流程,并训练了一系列ReasRMs,即RM-R1。训练过程包括两个关键阶段:(1) 高质量推理链的蒸馏;(2) 带有可验证奖励的强化学习。RM-R1通过自动生成推理轨迹或特定于聊天的评分标准来改进LLM的 rollout,并根据这些标准评估候选响应。实证结果表明,我们的模型在多个全面的奖励模型基准测试中达到了生成式RM的最佳或接近最佳性能,在某些情况下甚至超过了更大规模的开源权重模型(如Llama3.1-405B)和专有模型(如GPT-4o),最高提升了13.8%。除了最终性能外,我们还进行了详尽的经验分析,以了解成功训练ReasRM的关键要素。为了促进未来的研究,我们在 https://github.com/RM-R1-UIUC/RM-R1 上发布了六种ReasRM模型及其代码和数据。