il y a 16 jours

Math-Shepherd : Vérifier et renforcer les LLM de manière étape par étape sans annotations humaines

Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

Résumé

Dans cet article, nous présentons un modèle innovant de récompense orienté processus pour les mathématiques, appelé \textbf{Math-Shepherd}, qui attribue un score de récompense à chaque étape de la résolution de problèmes mathématiques. L’entraînement de Math-Shepherd est réalisé à l’aide de données d’annotation supervisées construites automatiquement au niveau des étapes, permettant de surmonter le goulot d’étranglement lié à la dépendance excessive aux annotations manuelles dans les travaux existants. Nous évaluons l’efficacité de Math-Shepherd dans deux scénarios : 1) \textit{Vérification} : Math-Shepherd est utilisé pour réordonner plusieurs sorties générées par des grands modèles linguistiques (LLM) ; 2) \textit{Apprentissage par renforcement} : Math-Shepherd est employé pour renforcer les LLM via une optimisation de politique proximale (PPO) étape par étape. Grâce à Math-Shepherd, une série de LLM open-source montre des performances exceptionnelles. Par exemple, l’application de PPO étape par étape avec Math-Shepherd améliore significativement la précision de Mistral-7B (passant de 77,9\% à 84,1\% sur GSM8K et de 28,6\% à 33,0\% sur MATH). La précision peut être encore augmentée à 89,1\% et 43,5\% sur GSM8K et MATH respectivement grâce à la vérification par Math-Shepherd. Nous estimons que la supervision automatique des processus détient un potentiel considérable pour l’évolution future des LLM.