HyperAI超神经
5 days ago

预训练策略判别器是通用奖励模型

Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
预训练策略判别器是通用奖励模型
摘要

我们提出了一种新颖的奖励建模视角,将其表述为一种策略区分器,该区分器量化了两个策略之间的差异以生成奖励信号,引导训练策略向具有期望行为的目标策略靠拢。基于这一概念性洞察,我们提出了一种可扩展的预训练方法——策略区分学习(Policy Discriminative Learning, POLAR),该方法训练一个奖励模型(RM)来识别相同的策略并区分不同的策略。与依赖绝对偏好的传统奖励建模方法不同,POLAR捕捉了一个策略与任意目标策略之间的相对差异,这是一种适合建模通用排序关系的可扩展、高层次优化目标。利用POLAR预训练范式,我们展示了一系列参数规模从1.8亿到7亿的RM。实证结果表明,POLAR显著优于传统的非预训练方法,大幅提升了RM的性能。例如,在STEM任务中,POLAR-7B将偏好准确性从54.8%提高到了81.0%,在创意写作任务中则从57.9%提高到了85.5%,相比现有最佳基线(SOTA baselines)均有显著提升。此外,在使用强化微调(Reinforcement Fine-tuning, RFT)进行强化学习人类反馈(RLHF)时,POLAR展示了强大的泛化能力,提供了可靠的奖励信号,并显著增强了策略性能——在20个基准测试中,将LLaMa3.1-8B的平均表现从47.36%提升至56.33%,Qwen2.5-32B的表现则从64.49%提升至70.47%。此外,扩展实验揭示了计算量与性能之间存在明显的幂律关系,线性相关系数接近0.99。这些令人印象深刻的表现、强大的泛化能力和良好的扩展特性表明,POLAR是开发通用且强大的奖励模型的一个有前景的方向。