HyperAIHyperAI

Command Palette

Search for a command to run...

Compute as Teacher: Die Inferenzrechnung in referenzfreie Aufsicht verwandeln

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

Zusammenfassung

Woher stammen Lernsignale, wenn nach der Trainingsphase keine Ground-Truth vorhanden ist? Wir schlagen vor, die Exploration in eine Supervision zu verwandeln, indem wir Compute as Teacher (CaT) einsetzen. Dabei wird die eigene Exploration des Modells während der Inferenz in eine referenzfreie Supervision umgewandelt, indem aus einer Gruppe paralleler Rollouts eine einzige Referenz synthetisiert und dann darauf optimiert wird. Konkret erzeugt die aktuelle Politik eine Gruppe von Rollouts; ein fixierter Anchor (die Ausgangspolitik) klärt Auslassungen und Widersprüche, um eine Referenz abzuschätzen, wodurch zusätzliche Inferenzzeit-Compute in ein Lehrersignal umgewandelt wird. Wir wandeln dieses Signal in Belohnungen in zwei Regimen um: (i) Bei überprüfbaren Aufgaben wird programmativer Äquivalenz der Endantworten verwendet; (ii) Bei nicht überprüfbaren Aufgaben werden selbst vorgeschlagene Bewertungskriterien – binäre, nachvollziehbare Maßstäbe – eingesetzt, die von einem unabhängigen LLM-Richter bewertet werden, wobei die Belohnung durch den Anteil der erfüllten Kriterien bestimmt wird. Im Gegensatz zu Auswahlmethoden (Best-of-N, Mehrheitsentscheid, Perplexität oder Richter-Bewertungen) kann die Synthese mit der Mehrheit nicht übereinstimmen und dennoch richtig sein, selbst wenn alle Rollouts falsch sind; die Leistung steigt mit der Anzahl der Rollouts. Als Verfahren zur Testzeit verbessert CaT Gemma 3 4B, Qwen 3 4B und Llama 3.1 8B (bis zu +27 % auf MATH-500; +12 % auf HealthBench). Mit Verstärkendem Lernen (CaT-RL) erzielen wir zusätzliche Verbesserungen (bis zu +33 % und +30 %), wobei die trainierte Politik das ursprüngliche Lehrersignal übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Compute as Teacher: Die Inferenzrechnung in referenzfreie Aufsicht verwandeln | Paper | HyperAI