Améliorer les raisonnements des grands modèles linguistiques grâce à un vérificateur conscient des étapes

L’apprentissage à peu d’exemples est une tâche difficile qui exige que les modèles linguistiques généralisent à partir d’un nombre limité d’exemples. Les grands modèles linguistiques tels que GPT-3 et PaLM ont réalisé des progrès remarquables dans ce domaine, mais ils peinent encore à résoudre certaines tâches de raisonnement, comme GSM8K, un benchmark dédié aux problèmes arithmétiques. Pour améliorer leurs capacités de raisonnement, des travaux antérieurs ont proposé d’orienter les modèles linguistiques à l’aide de prompts qui incitent à produire une série d’étapes de raisonnement avant de donner la réponse finale, permettant d’atteindre une amélioration significative sur GSM8K, passant de 17,9 % à 58,1 % en taux de résolution des problèmes. Dans cet article, nous présentons DIVERSE (Diverse Verifier on Reasoning Step), une nouvelle approche visant à renforcer davantage les capacités de raisonnement des modèles linguistiques. DIVERSE se compose de trois composants principaux : premièrement, elle génère des prompts diversifiés afin d’explorer différentes voies de raisonnement pour une même question ; deuxièmement, elle utilise un vérificateur basé sur un système de vote pondéré pour éliminer les réponses incorrectes ; troisièmement, elle vérifie chaque étape de raisonnement individuellement, plutôt que toute la chaîne d’inférence dans son ensemble. Nous évaluons DIVERSE sur le modèle linguistique le plus récent, code-davinci-002, et montrons qu’il atteint de nouveaux états de l’art sur six des huit benchmarks de raisonnement (par exemple, GSM8K passe de 74,4 % à 83,2 %).