HyperAIHyperAI

Command Palette

Search for a command to run...

Verstärkendes Lernen durch Selbst-Distillation

Zusammenfassung

Große Sprachmodelle werden zunehmend mittels Verstärkungslernen nachtrainiert, insbesondere in überprüfbareren Domänen wie Code und Mathematik. Doch die derzeitigen Methoden des Verstärkungslernens mit überprüfbaren Belohnungen (RLVR) lernen ausschließlich aus einer skalarwertigen Belohnung pro Versuch, was eine gravierende Herausforderung bei der Belohnungszuweisung darstellt. Viele überprüfbare Umgebungen bieten tatsächlich reichhaltige textuelle Rückmeldungen – beispielsweise Laufzeitfehler oder Beurteilungen durch einen Urteilssystem –, die erklären, warum ein Versuch gescheitert ist. Wir formalisieren diesen Kontext als Verstärkungslernen mit reichhaltiger Rückmeldung und stellen Self-Distillation Policy Optimization (SDPO) vor, das tokenisierte Rückmeldungen in ein dichtes Lernsignal umwandelt, ohne externe Lehrer oder explizite Belohnungsmodelle zu benötigen. SDPO betrachtet das aktuelle Modell unter Berücksichtigung der Rückmeldung als selbstgesteuerten Lehrer und leitet dessen auf der Rückmeldung basierende Vorhersagen für den nächsten Token zurück in die Politik ein. Auf diese Weise nutzt SDPO die Fähigkeit des Modells, retrospektiv seine eigenen Fehler im Kontext zu erkennen. In Experimenten zu wissenschaftlichem Schlussfolgern, Werkzeugnutzung und Wettbewerbsprogrammierung auf LiveCodeBench v6 übertrifft SDPO starke RLVR-Baselines hinsichtlich der Stichproben-Effizienz und der Endgenauigkeit. Besonders bemerkenswert ist, dass SDPO auch in Standard-RLVR-Umgebungen, die lediglich skalarwertige Rückmeldungen liefern, die Baselines schlägt, indem es erfolgreiche Durchläufe als implizite Rückmeldung für gescheiterte Versuche nutzt. Schließlich ermöglicht die Anwendung von SDPO auf einzelne Fragen zur Testzeit eine beschleunigte Entdeckung bei anspruchsvollen Aufgaben mit binärer Belohnung und erreicht dieselbe Entdeckungswahrscheinlichkeit wie Best-of-k-Sampling oder mehrstufige Gespräche, jedoch mit drei Mal weniger Versuchen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verstärkendes Lernen durch Selbst-Distillation | Paper | HyperAI