Math-Shepherd : Vérifier et renforcer les LLM de manière étape par étape sans annotations humaines

Dans cet article, nous présentons un modèle innovant de récompense orienté processus pour les mathématiques, appelé \textbf{Math-Shepherd}, qui attribue un score de récompense à chaque étape de la résolution de problèmes mathématiques. L’entraînement de Math-Shepherd est réalisé à l’aide de données d’annotation supervisées construites automatiquement au niveau des étapes, permettant de surmonter le goulot d’étranglement lié à la dépendance excessive aux annotations manuelles dans les travaux existants. Nous évaluons l’efficacité de Math-Shepherd dans deux scénarios : 1) \textit{Vérification} : Math-Shepherd est utilisé pour réordonner plusieurs sorties générées par des grands modèles linguistiques (LLM) ; 2) \textit{Apprentissage par renforcement} : Math-Shepherd est employé pour renforcer les LLM via une optimisation de politique proximale (PPO) étape par étape. Grâce à Math-Shepherd, une série de LLM open-source montre des performances exceptionnelles. Par exemple, l’application de PPO étape par étape avec Math-Shepherd améliore significativement la précision de Mistral-7B (passant de 77,9\% à 84,1\% sur GSM8K et de 28,6\% à 33,0\% sur MATH). La précision peut être encore augmentée à 89,1\% et 43,5\% sur GSM8K et MATH respectivement grâce à la vérification par Math-Shepherd. Nous estimons que la supervision automatique des processus détient un potentiel considérable pour l’évolution future des LLM.