il y a 10 jours

Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA

Chris Yuhao Liu; Liang Zeng; Yuzhen Xiao; Jujie He; Jiacai Liu; Chaojie Wang; Rui Yan; Wei Shen; Fuxiang Zhang; Jiacheng Xu; Yang Liu; Yahui Zhou

Voir les détails de l'article

Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA

Résumé

Malgré le rôle crucial des modèles de récompense (RMs) dans l'apprentissage par renforcement à partir de feedback humain (RLHF), les modèles de récompense ouverts d'avant-garde actuels se montrent inefficaces sur la plupart des bancs d'essai existants, échouant à capturer le spectre complexe et nuancé des préférences humaines. Même les approches qui intègrent des techniques d'entraînement avancées n'ont pas permis d'améliorations significatives des performances. Nous formulons l'hypothèse que cette fragilité découle principalement des limitations des ensembles de données de préférences, qui sont souvent étroitement définis, étiquetés artificiellement ou dépourvus de contrôles rigoureux de qualité. Pour relever ces défis, nous présentons un ensemble de données de préférences à grande échelle composé de 40 millions de paires de préférences, nommé SynPref-40M. Pour permettre une curatation à grande échelle, nous avons conçu un pipeline en deux étapes basé sur une synergie humain-IA, exploitant les forces complémentaires de la qualité des annotations humaines et de la scalabilité des IA. Dans ce pipeline, les humains fournissent des annotations vérifiées, tandis que les grands modèles linguistiques effectuent une curatation automatique guidée par les humains. En s'entraînant sur ce mélange de préférences, nous introduisons Skywork-Reward-V2, une série de huit modèles de récompense allant de 0,6 milliard à 8 milliards de paramètres, entraînés sur un sous-ensemble soigneusement curaté de 26 millions de paires de préférences issues du SynPref-40M. Nous montrons que Skywork-Reward-V2 est polyvalent dans un large éventail de capacités, y compris l'alignement avec les préférences humaines, la justesse objective, la sécurité, la résistance aux biais stylistiques et l'évolutivité au meilleur parmi N (best-of-N scaling), atteignant des performances d'avant-garde sur sept grands bancs d'essai pour modèles de récompense. Les études d'ablation confirment que l'efficacité de notre approche provient non seulement du volume des données mais aussi d'une curatation haute qualité. La série Skywork-Reward-V2 représente un progrès substantiel dans le domaine des modèles de récompense ouverts, soulignant le potentiel inexploité des ensembles de données existants et démontrant comment la synergie entre curatation humaine et IA peut considérablement améliorer la qualité des données.