HyperAIHyperAI

Command Palette

Search for a command to run...

Vérifions étape par étape

Hunter Lightman Vineet Kosaraju Yura Burda Harri Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever Karl Cobbe

Résumé

Ces dernières années, les grands modèles linguistiques ont considérablement amélioré leur capacité à effectuer des raisonnements complexes sur plusieurs étapes. Toutefois, même les modèles les plus avancés commettent régulièrement des erreurs logiques. Pour former des modèles plus fiables, deux approches sont envisageables : la supervision par résultat, qui fournit un retour d’information sur le résultat final, ou la supervision par processus, qui fournit un retour d’information à chaque étape intermédiaire du raisonnement. Étant donné l’importance de former des modèles fiables, ainsi que le coût élevé du retour humain, il est essentiel de comparer soigneusement ces deux méthodes. Des travaux récents ont déjà entamé cette comparaison, mais de nombreuses questions demeurent ouvertes. Nous menons ici notre propre investigation, et constatons que la supervision par processus surpasse significativement la supervision par résultat lorsqu’il s’agit d’entraîner des modèles à résoudre des problèmes issus du difficile jeu de données MATH. Notre modèle entraîné avec supervision par processus parvient à résoudre 78 % des problèmes d’un sous-ensemble représentatif du jeu de test MATH. En outre, nous montrons que l’apprentissage actif améliore considérablement l’efficacité de la supervision par processus. Pour soutenir les recherches connexes, nous mettons également à disposition PRM800K, l’ensemble complet de 800 000 étiquettes de retour humain au niveau des étapes, utilisées pour entraîner notre meilleur modèle de récompense.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp