HyperAIHyperAI

Command Palette

Search for a command to run...

Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA

Résumé

Malgré le rôle crucial des modèles de récompense (RMs) dans l'apprentissage par renforcement à partir de feedback humain (RLHF), les modèles de récompense ouverts d'avant-garde actuels se montrent inefficaces sur la plupart des bancs d'essai existants, échouant à capturer le spectre complexe et nuancé des préférences humaines. Même les approches qui intègrent des techniques d'entraînement avancées n'ont pas permis d'améliorations significatives des performances. Nous formulons l'hypothèse que cette fragilité découle principalement des limitations des ensembles de données de préférences, qui sont souvent étroitement définis, étiquetés artificiellement ou dépourvus de contrôles rigoureux de qualité. Pour relever ces défis, nous présentons un ensemble de données de préférences à grande échelle composé de 40 millions de paires de préférences, nommé SynPref-40M. Pour permettre une curatation à grande échelle, nous avons conçu un pipeline en deux étapes basé sur une synergie humain-IA, exploitant les forces complémentaires de la qualité des annotations humaines et de la scalabilité des IA. Dans ce pipeline, les humains fournissent des annotations vérifiées, tandis que les grands modèles linguistiques effectuent une curatation automatique guidée par les humains. En s'entraînant sur ce mélange de préférences, nous introduisons Skywork-Reward-V2, une série de huit modèles de récompense allant de 0,6 milliard à 8 milliards de paramètres, entraînés sur un sous-ensemble soigneusement curaté de 26 millions de paires de préférences issues du SynPref-40M. Nous montrons que Skywork-Reward-V2 est polyvalent dans un large éventail de capacités, y compris l'alignement avec les préférences humaines, la justesse objective, la sécurité, la résistance aux biais stylistiques et l'évolutivité au meilleur parmi N (best-of-N scaling), atteignant des performances d'avant-garde sur sept grands bancs d'essai pour modèles de récompense. Les études d'ablation confirment que l'efficacité de notre approche provient non seulement du volume des données mais aussi d'une curatation haute qualité. La série Skywork-Reward-V2 représente un progrès substantiel dans le domaine des modèles de récompense ouverts, soulignant le potentiel inexploité des ensembles de données existants et démontrant comment la synergie entre curatation humaine et IA peut considérablement améliorer la qualité des données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Skywork-Reward-V2 : Échelle de curation des données de préférence par synergie humain-IA | Articles | HyperAI