HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement d’un assistant utile et sans danger par apprentissage par renforcement à partir de feedback humain

Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen Nova DasSarma et al

Résumé

Nous appliquons la modélisation des préférences et l'apprentissage par renforcement à partir de feedback humain (RLHF, Reinforcement Learning from Human Feedback) afin d’ajuster finement les modèles linguistiques afin qu’ils agissent comme des assistants utiles et sans danger. Nous constatons que cette formation d’alignement améliore les performances sur presque toutes les évaluations de traitement du langage naturel (NLP), et qu’elle est pleinement compatible avec l’entraînement à des compétences spécialisées telles que la programmation en Python ou la synthèse de texte. Nous explorons une approche itérative en ligne d’entraînement, dans laquelle les modèles de préférences et les politiques RL sont mis à jour à un rythme hebdomadaire à l’aide de nouvelles données de feedback humain, permettant ainsi d’améliorer efficacement nos jeux de données et nos modèles. Enfin, nous étudions la robustesse de l’entraînement RLHF et identifions une relation approximativement linéaire entre la récompense RL et la racine carrée de la divergence KL entre la politique et son état initial. Parallèlement à nos résultats principaux, nous menons des analyses complémentaires sur la calibration, les objectifs concurrents, ainsi que l’utilisation de détection de données hors distribution (OOD), comparons nos modèles aux rédacteurs humains, et fournissons des exemples de sorties générées à partir de prompts apparaissant dans des travaux récents connexes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp