Command Palette
Search for a command to run...
OVM, outcome-supervisierte Wertmodelle zur Planung beim mathematischen Schließen
OVM, outcome-supervisierte Wertmodelle zur Planung beim mathematischen Schließen
Fei Yu Anningzhe Gao Benyou Wang
Zusammenfassung
Große Sprachmodelle (LLMs) leiden häufig unter einer Beeinträchtigung der Genauigkeit über mehrere Schlussfolgerungsschritte hinweg, insbesondere bei mathematischer Schlussfolgerung, bei der ein Fehler in früheren Schritten zu einer Verstärkung und Weiterleitung auf nachfolgende Schritte führen und letztlich zu einer falschen Antwort resultieren kann. Um die Verbreitung solcher Fehler zu verringern, wird geführtes Decodieren eingesetzt, um die Decodierung des LLM Schritt für Schritt zu leiten. Wir argumentieren, dass es in geführtem Decodieren vorteilhafter sein kann, das Potenzial eines unvollständigen Schlussfolgerungspfads zu bewerten, anstatt lediglich die Korrektheit jedes einzelnen Schritts sicherzustellen, da der erste Ansatz gezielt auf eine korrekte Endantwort hinführt. Dies wandelt die Aufgabe in ein Wertescha¨tzung-Problem im Kontext der Planung um.In Anlehnung an die Erkenntnis, dass Outcome-Supervision beim gefu¨hrten Decodieren im Wesentlichen als Wertmodell fungiert, schlagen wir ein Outcome-supervisiertes Wertmodell (OVM) vor, das Outcome-Supervision nutzt, um ein Wertmodell zu trainieren, das Schritte priorisiert, die zu korrekten Schlussfolgerungen führen. Darüber hinaus entfällt bei OVM die Notwendigkeit aufwändiger Annotationen der Schritt-korrektheit, was die Skalierbarkeit erheblich verbessert. Unsere Experimente auf zwei Datensätzen für mehrschrittige mathematische Schlussfolgerung, GSM8K und Game of 24, belegen die herausragende Leistungsfähigkeit des OVM-Modells. Besonders hervorzuheben ist, dass unser OVM-7B-Modell unter LLMs bis zu 13 Milliarden Parametern die derzeit beste Leistung auf GSM8K erzielt; dabei wird weder GPT-4 noch Code-Ausführung eingesetzt. Diese Ergebnisse bieten einen neuen Blickwinkel auf die Rolle der Outcome-Supervision bei der Ausbildung von Wertmodellen für mehrschrittige Schlussfolgerungsaufgaben und liefern eine theoretische Begründung für deren Vorteil bei der Werteschätzung im Kontext geführter Decodierung.