vor 16 Tagen

Math-Shepherd: LLMs schrittweise ohne menschliche Annotationen überprüfen und verstärken

Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

Abstract

In diesem Paper stellen wir ein innovatives, prozessorientiertes Mathematik-Verfahrens-Belohnungsmodell namens \textbf{Math-Shepherd} vor, das jeder Schritt einer mathematischen Lösung eine Belohnungsskala zuweist. Die Schulung von Math-Shepherd erfolgt mittels automatisch generierter, schrittweise strukturierter Überwachungsdaten, wodurch die Beschränkung durch die starke Abhängigkeit von manueller Annotation in bestehenden Ansätzen überwunden wird. Wir untersuchen die Wirksamkeit von Math-Shepherd in zwei Szenarien: 1) \textit{Verifikation}: Math-Shepherd wird zur Neubewertung mehrerer Ausgaben verwendet, die von großen Sprachmodellen (LLMs) generiert wurden; 2) \textit{Verstärkendes Lernen}: Math-Shepherd wird eingesetzt, um LLMs mit schrittweiser Proximal Policy Optimization (PPO) zu verfeinern. Mit Hilfe von Math-Shepherd zeigt eine Reihe offener LLMs herausragende Leistung. Beispielsweise verbessert die schrittweise PPO-Optimierung mit Math-Shepherd die Genauigkeit von Mistral-7B signifikant von 77,9\% auf 84,1\% bei GSM8K und von 28,6\% auf 33,0\% bei MATH. Durch die Verifikation mittels Math-Shepherd kann die Genauigkeit zudem weiter auf 89,1\% (GSM8K) und 43,5\% (MATH) gesteigert werden. Wir sind überzeugt, dass die automatische prozessuale Überwachung ein großes Potenzial für die zukünftige Entwicklung von LLMs besitzt.