Command Palette
Search for a command to run...
Compute as Teacher: Die Inferenzrechnung in referenzfreie Aufsicht verwandeln
Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

Abstract
Woher stammen Lernsignale, wenn nach der Trainingsphase keine Ground-Truth vorhanden ist? Wir schlagen vor, die Exploration in eine Supervision zu verwandeln, indem wir Compute as Teacher (CaT) einsetzen. Dabei wird die eigene Exploration des Modells während der Inferenz in eine referenzfreie Supervision umgewandelt, indem aus einer Gruppe paralleler Rollouts eine einzige Referenz synthetisiert und dann darauf optimiert wird. Konkret erzeugt die aktuelle Politik eine Gruppe von Rollouts; ein fixierter Anchor (die Ausgangspolitik) klärt Auslassungen und Widersprüche, um eine Referenz abzuschätzen, wodurch zusätzliche Inferenzzeit-Compute in ein Lehrersignal umgewandelt wird. Wir wandeln dieses Signal in Belohnungen in zwei Regimen um: (i) Bei überprüfbaren Aufgaben wird programmativer Äquivalenz der Endantworten verwendet; (ii) Bei nicht überprüfbaren Aufgaben werden selbst vorgeschlagene Bewertungskriterien – binäre, nachvollziehbare Maßstäbe – eingesetzt, die von einem unabhängigen LLM-Richter bewertet werden, wobei die Belohnung durch den Anteil der erfüllten Kriterien bestimmt wird. Im Gegensatz zu Auswahlmethoden (Best-of-N, Mehrheitsentscheid, Perplexität oder Richter-Bewertungen) kann die Synthese mit der Mehrheit nicht übereinstimmen und dennoch richtig sein, selbst wenn alle Rollouts falsch sind; die Leistung steigt mit der Anzahl der Rollouts. Als Verfahren zur Testzeit verbessert CaT Gemma 3 4B, Qwen 3 4B und Llama 3.1 8B (bis zu +27 % auf MATH-500; +12 % auf HealthBench). Mit Verstärkendem Lernen (CaT-RL) erzielen wir zusätzliche Verbesserungen (bis zu +33 % und +30 %), wobei die trainierte Politik das ursprüngliche Lehrersignal übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.