HyperAI超神経
10日前

Skywork-Reward-V2: ヒューマン-AI 協調による嗜好データのキュレーションのスケーリング

Chris Yuhao Liu; Liang Zeng; Yuzhen Xiao; Jujie He; Jiacai Liu; Chaojie Wang; Rui Yan; Wei Shen; Fuxiang Zhang; Jiacheng Xu; Yang Liu; Yahui Zhou
Skywork-Reward-V2: ヒューマン-AI 協調による嗜好データのキュレーションのスケーリング
要約

報酬モデル(RMs)が人間のフィードバックに基づく強化学習(RLHF)において重要な役割を果たしているにもかかわらず、現行の最先端のオープンソース報酬モデルは、ほとんどの既存の評価ベンチマークで低性能を示しており、人間の複雑で洗練された好みを捉えることができていない。先進的な学習技術を取り入れたアプローチであっても、有意義な性能向上には至っていない。私たちは、この脆弱性が主に好みデータセットの制限から生じていると仮説を立てている。これらのデータセットはしばしば範囲が狭く、人工的にラベリングされたり、厳密な品質管理が欠如している。これらの課題に対処するため、4000万件の好みペアから構成される大規模な好みデータセットであるSynPref-40Mを提示する。大規模なデータキュレーションを可能にするために、人間とAIの相補的な長所を活用した二段階パイプラインを設計した。このパイプラインでは、人間が検証済みの注釈を提供し、大規模言語モデルは人間のガイダンスに基づいて自動キュレーションを行う。この好みミックスを使用して学習させることで、2600万件の好みペアから慎重に選別されたサブセット上で訓練された8つの報酬モデル(パラメータ数は0.6Bから8Bまで)であるSkywork-Reward-V2を導入する。私たちは、Skywork-Reward-V2が多様な能力に対して汎用性があることを示す。これらには人間の好みとの整合性、目的適合性、安全性、スタイルバイアスへの耐性、およびN-of-bestスケーリングが含まれており、7つの主要な報酬モデルベンチマークにおいて最先端の性能を達成している。削除実験により、私たちのアプローチの効果が単なるデータ量だけでなく高品質なキュレーションにも起因することが確認された。Skywork-Reward-V2シリーズはオープンソース報酬モデルにおける大きな進歩であり、既存の好みデータセットに秘められた未開発の可能性を示し、人間とAIによるキュレーション協調が大幅に高いデータ品質につながることを実証している。