HyperAI超神经
7 days ago

Skywork-Reward-V2:通过人机协同扩展偏好数据管理

Chris Yuhao Liu; Liang Zeng; Yuzhen Xiao; Jujie He; Jiacai Liu; Chaojie Wang; Rui Yan; Wei Shen; Fuxiang Zhang; Jiacheng Xu; Yang Liu; Yahui Zhou
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
摘要

尽管奖励模型(RMs)在基于人类反馈的强化学习(RLHF)中发挥着关键作用,但目前最先进的开放奖励模型在大多数现有的评估基准上表现不佳,未能捕捉到人类偏好中的细微差别和复杂性。即使采用先进的训练技术,也未能显著提高性能。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、标签合成或缺乏严格的质量控制。为了解决这些问题,我们推出了一种大规模的偏好数据集,包含4000万对偏好数据,命名为SynPref-40M。为了实现大规模的数据整理,我们设计了一个两阶段的人机协同管道,该管道利用了人类注释质量和人工智能可扩展性的互补优势。在这个管道中,人类提供经过验证的注释,而大型语言模型则根据人类指导进行自动整理。基于这一偏好混合数据集,我们推出了Skywork-Reward-V2系列奖励模型,包括八个参数规模从6亿到80亿不等的模型,在精心整理的2600万对偏好数据子集中进行了训练。我们展示了Skywork-Reward-V2在多种能力上的广泛适用性,包括与人类偏好的一致性、目标正确性、安全性、抗风格偏差能力和N选最佳性能,在七个主要奖励模型基准测试中均取得了最先进水平的表现。消融研究表明,我们的方法不仅得益于数据规模的增加,还归功于高质量的数据整理。Skywork-Reward-V2系列代表了开放奖励模型领域的重大进展,突显了现有偏好数据集未被充分利用的潜力,并展示了人机协同整理如何显著提升数据质量。