HyperAIHyperAI
vor 16 Tagen

Math-Shepherd: LLMs schrittweise ohne menschliche Annotationen überprüfen und verstärken

Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui
Math-Shepherd: LLMs schrittweise ohne menschliche Annotationen überprüfen und verstärken
Abstract

In diesem Paper stellen wir ein innovatives, prozessorientiertes Mathematik-Verfahrens-Belohnungsmodell namens \textbf{Math-Shepherd} vor, das jeder Schritt einer mathematischen Lösung eine Belohnungsskala zuweist. Die Schulung von Math-Shepherd erfolgt mittels automatisch generierter, schrittweise strukturierter Überwachungsdaten, wodurch die Beschränkung durch die starke Abhängigkeit von manueller Annotation in bestehenden Ansätzen überwunden wird. Wir untersuchen die Wirksamkeit von Math-Shepherd in zwei Szenarien: 1) \textit{Verifikation}: Math-Shepherd wird zur Neubewertung mehrerer Ausgaben verwendet, die von großen Sprachmodellen (LLMs) generiert wurden; 2) \textit{Verstärkendes Lernen}: Math-Shepherd wird eingesetzt, um LLMs mit schrittweiser Proximal Policy Optimization (PPO) zu verfeinern. Mit Hilfe von Math-Shepherd zeigt eine Reihe offener LLMs herausragende Leistung. Beispielsweise verbessert die schrittweise PPO-Optimierung mit Math-Shepherd die Genauigkeit von Mistral-7B signifikant von 77,9\% auf 84,1\% bei GSM8K und von 28,6\% auf 33,0\% bei MATH. Durch die Verifikation mittels Math-Shepherd kann die Genauigkeit zudem weiter auf 89,1\% (GSM8K) und 43,5\% (MATH) gesteigert werden. Wir sind überzeugt, dass die automatische prozessuale Überwachung ein großes Potenzial für die zukünftige Entwicklung von LLMs besitzt.

Math-Shepherd: LLMs schrittweise ohne menschliche Annotationen überprüfen und verstärken | Neueste Forschungsarbeiten | HyperAI