Entraînement d’un assistant utile et sans danger par apprentissage par renforcement à partir de feedback humain

Nous appliquons la modélisation des préférences et l'apprentissage par renforcement à partir de feedback humain (RLHF, Reinforcement Learning from Human Feedback) afin d’ajuster finement les modèles linguistiques afin qu’ils agissent comme des assistants utiles et sans danger. Nous constatons que cette formation d’alignement améliore les performances sur presque toutes les évaluations de traitement du langage naturel (NLP), et qu’elle est pleinement compatible avec l’entraînement à des compétences spécialisées telles que la programmation en Python ou la synthèse de texte. Nous explorons une approche itérative en ligne d’entraînement, dans laquelle les modèles de préférences et les politiques RL sont mis à jour à un rythme hebdomadaire à l’aide de nouvelles données de feedback humain, permettant ainsi d’améliorer efficacement nos jeux de données et nos modèles. Enfin, nous étudions la robustesse de l’entraînement RLHF et identifions une relation approximativement linéaire entre la récompense RL et la racine carrée de la divergence KL entre la politique et son état initial. Parallèlement à nos résultats principaux, nous menons des analyses complémentaires sur la calibration, les objectifs concurrents, ainsi que l’utilisation de détection de données hors distribution (OOD), comparons nos modèles aux rédacteurs humains, et fournissons des exemples de sorties générées à partir de prompts apparaissant dans des travaux récents connexes.