HyperAIHyperAI

Command Palette

Search for a command to run...

Math-Shepherd : Vérifier et renforcer les LLM de manière étape par étape sans annotations humaines

Peiyi Wang Lei Li Zhihong Shao R.X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui

Résumé

Dans cet article, nous présentons un modèle innovant de récompense orienté processus pour les mathématiques, appelé \textbf{Math-Shepherd}, qui attribue un score de récompense à chaque étape de la résolution de problèmes mathématiques. L’entraînement de Math-Shepherd est réalisé à l’aide de données d’annotation supervisées construites automatiquement au niveau des étapes, permettant de surmonter le goulot d’étranglement lié à la dépendance excessive aux annotations manuelles dans les travaux existants. Nous évaluons l’efficacité de Math-Shepherd dans deux scénarios : 1) \textit{Vérification} : Math-Shepherd est utilisé pour réordonner plusieurs sorties générées par des grands modèles linguistiques (LLM) ; 2) \textit{Apprentissage par renforcement} : Math-Shepherd est employé pour renforcer les LLM via une optimisation de politique proximale (PPO) étape par étape. Grâce à Math-Shepherd, une série de LLM open-source montre des performances exceptionnelles. Par exemple, l’application de PPO étape par étape avec Math-Shepherd améliore significativement la précision de Mistral-7B (passant de 77,9% à 84,1% sur GSM8K et de 28,6% à 33,0% sur MATH). La précision peut être encore augmentée à 89,1% et 43,5% sur GSM8K et MATH respectivement grâce à la vérification par Math-Shepherd. Nous estimons que la supervision automatique des processus détient un potentiel considérable pour l’évolution future des LLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp