HyperAIHyperAI
il y a 17 jours

Entraînement des modèles linguistiques à suivre des instructions avec un feedback humain

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Entraînement des modèles linguistiques à suivre des instructions avec un feedback humain
Résumé

Le fait de rendre les modèles linguistiques plus grands ne garantit pas nécessairement une meilleure capacité à suivre l’intention de l’utilisateur. Par exemple, les grands modèles linguistiques peuvent produire des sorties fausses, toxiques ou tout simplement peu utiles. Autrement dit, ces modèles ne sont pas alignés avec leurs utilisateurs. Dans cet article, nous montrons une voie prometteuse pour aligner les modèles linguistiques sur l’intention de l’utilisateur sur une large gamme de tâches, en procédant à un ajustement fin (fine-tuning) basé sur des retours humains. À partir d’un ensemble de prompts rédigés par des annotateurs ainsi que de prompts soumis via l’API OpenAI, nous collectons un jeu de données comprenant des démonstrations annotées du comportement souhaité du modèle, que nous utilisons pour ajuster finement GPT-3 par apprentissage supervisé. Nous recueillons ensuite un second jeu de données comprenant des classements des sorties produites par le modèle, que nous utilisons pour affiner davantage ce modèle supervisé par apprentissage par renforcement à partir de retours humains. Nous appelons les modèles résultants InstructGPT. Dans des évaluations humaines menées sur notre distribution de prompts, les sorties du modèle InstructGPT de 1,3 milliard de paramètres sont préférées aux sorties du modèle GPT-3 de 175 milliards de paramètres, malgré un nombre de paramètres 100 fois moindre. En outre, les modèles InstructGPT montrent une amélioration de la véracité et une réduction de la génération de contenus toxiques, tout en présentant des pertes de performance négligeables sur des jeux de données publics de traitement du langage naturel. Bien que InstructGPT commette encore certaines erreurs élémentaires, nos résultats démontrent que l’ajustement fin basé sur des retours humains constitue une voie prometteuse pour aligner les modèles linguistiques sur l’intention humaine.

Entraînement des modèles linguistiques à suivre des instructions avec un feedback humain | Articles de recherche récents | HyperAI