HyperAIHyperAI

Command Palette

Search for a command to run...

OVM, outcome-supervisierte Wertmodelle zur Planung beim mathematischen Schließen

Fei Yu Anningzhe Gao Benyou Wang

Zusammenfassung

Große Sprachmodelle (LLMs) leiden häufig unter einer Beeinträchtigung der Genauigkeit über mehrere Schlussfolgerungsschritte hinweg, insbesondere bei mathematischer Schlussfolgerung, bei der ein Fehler in früheren Schritten zu einer Verstärkung und Weiterleitung auf nachfolgende Schritte führen und letztlich zu einer falschen Antwort resultieren kann. Um die Verbreitung solcher Fehler zu verringern, wird geführtes Decodieren eingesetzt, um die Decodierung des LLM Schritt für Schritt zu leiten. Wir argumentieren, dass es in geführtem Decodieren vorteilhafter sein kann, das Potenzial eines unvollständigen Schlussfolgerungspfads zu bewerten, anstatt lediglich die Korrektheit jedes einzelnen Schritts sicherzustellen, da der erste Ansatz gezielt auf eine korrekte Endantwort hinführt. Dies wandelt die Aufgabe in ein Wertescha¨tzung\textit{Werteschätzung}Wertescha¨tzung-Problem im Kontext der Planung um.In Anlehnung an die Erkenntnis, dass Outcome-Supervision beim gefu¨hrten Decodieren im Wesentlichen als Wertmodell fungiert\textit{Outcome-Supervision beim geführten Decodieren im Wesentlichen als Wertmodell fungiert}Outcome-Supervision beim gefu¨hrten Decodieren im Wesentlichen als Wertmodell fungiert, schlagen wir ein Outcome-supervisiertes Wertmodell (OVM) vor, das Outcome-Supervision nutzt, um ein Wertmodell zu trainieren, das Schritte priorisiert, die zu korrekten Schlussfolgerungen führen. Darüber hinaus entfällt bei OVM die Notwendigkeit aufwändiger Annotationen der Schritt-korrektheit, was die Skalierbarkeit erheblich verbessert. Unsere Experimente auf zwei Datensätzen für mehrschrittige mathematische Schlussfolgerung, GSM8K und Game of 24, belegen die herausragende Leistungsfähigkeit des OVM-Modells. Besonders hervorzuheben ist, dass unser OVM-7B-Modell unter LLMs bis zu 13 Milliarden Parametern die derzeit beste Leistung auf GSM8K erzielt\textbf{OVM-7B-Modell unter LLMs bis zu 13 Milliarden Parametern die derzeit beste Leistung auf GSM8K erzielt}OVM-7B-Modell unter LLMs bis zu 13 Milliarden Parametern die derzeit beste Leistung auf GSM8K erzielt; dabei wird weder GPT-4 noch Code-Ausführung eingesetzt. Diese Ergebnisse bieten einen neuen Blickwinkel auf die Rolle der Outcome-Supervision bei der Ausbildung von Wertmodellen für mehrschrittige Schlussfolgerungsaufgaben und liefern eine theoretische Begründung für deren Vorteil bei der Werteschätzung im Kontext geführter Decodierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp