Vérifions étape par étape

Ces dernières années, les grands modèles linguistiques ont considérablement amélioré leur capacité à effectuer des raisonnements complexes sur plusieurs étapes. Toutefois, même les modèles les plus avancés commettent régulièrement des erreurs logiques. Pour former des modèles plus fiables, deux approches sont envisageables : la supervision par résultat, qui fournit un retour d’information sur le résultat final, ou la supervision par processus, qui fournit un retour d’information à chaque étape intermédiaire du raisonnement. Étant donné l’importance de former des modèles fiables, ainsi que le coût élevé du retour humain, il est essentiel de comparer soigneusement ces deux méthodes. Des travaux récents ont déjà entamé cette comparaison, mais de nombreuses questions demeurent ouvertes. Nous menons ici notre propre investigation, et constatons que la supervision par processus surpasse significativement la supervision par résultat lorsqu’il s’agit d’entraîner des modèles à résoudre des problèmes issus du difficile jeu de données MATH. Notre modèle entraîné avec supervision par processus parvient à résoudre 78 % des problèmes d’un sous-ensemble représentatif du jeu de test MATH. En outre, nous montrons que l’apprentissage actif améliore considérablement l’efficacité de la supervision par processus. Pour soutenir les recherches connexes, nous mettons également à disposition PRM800K, l’ensemble complet de 800 000 étiquettes de retour humain au niveau des étapes, utilisées pour entraîner notre meilleur modèle de récompense.