vor 18 Tagen

OVM, outcome-supervisierte Wertmodelle zur Planung beim mathematischen Schließen

Fei Yu, Anningzhe Gao, Benyou Wang

Abstract

Große Sprachmodelle (LLMs) leiden häufig unter einer Beeinträchtigung der Genauigkeit über mehrere Schlussfolgerungsschritte hinweg, insbesondere bei mathematischer Schlussfolgerung, bei der ein Fehler in früheren Schritten zu einer Verstärkung und Weiterleitung auf nachfolgende Schritte führen und letztlich zu einer falschen Antwort resultieren kann. Um die Verbreitung solcher Fehler zu verringern, wird geführtes Decodieren eingesetzt, um die Decodierung des LLM Schritt für Schritt zu leiten. Wir argumentieren, dass es in geführtem Decodieren vorteilhafter sein kann, das Potenzial eines unvollständigen Schlussfolgerungspfads zu bewerten, anstatt lediglich die Korrektheit jedes einzelnen Schritts sicherzustellen, da der erste Ansatz gezielt auf eine korrekte Endantwort hinführt. Dies wandelt die Aufgabe in ein $\textit{Werteschätzung}$-Problem im Kontext der Planung um.In Anlehnung an die Erkenntnis, dass $\textit{Outcome-Supervision beim geführten Decodieren im Wesentlichen als Wertmodell fungiert}$, schlagen wir ein Outcome-supervisiertes Wertmodell (OVM) vor, das Outcome-Supervision nutzt, um ein Wertmodell zu trainieren, das Schritte priorisiert, die zu korrekten Schlussfolgerungen führen. Darüber hinaus entfällt bei OVM die Notwendigkeit aufwändiger Annotationen der Schritt-korrektheit, was die Skalierbarkeit erheblich verbessert. Unsere Experimente auf zwei Datensätzen für mehrschrittige mathematische Schlussfolgerung, GSM8K und Game of 24, belegen die herausragende Leistungsfähigkeit des OVM-Modells. Besonders hervorzuheben ist, dass unser $\textbf{OVM-7B-Modell unter LLMs bis zu 13 Milliarden Parametern die derzeit beste Leistung auf GSM8K erzielt}$; dabei wird weder GPT-4 noch Code-Ausführung eingesetzt. Diese Ergebnisse bieten einen neuen Blickwinkel auf die Rolle der Outcome-Supervision bei der Ausbildung von Wertmodellen für mehrschrittige Schlussfolgerungsaufgaben und liefern eine theoretische Begründung für deren Vorteil bei der Werteschätzung im Kontext geführter Decodierung.