Zur Wechselwirkung von Pre-Training, Mid-Training und RL bei reasoningfähigen Sprachmodellen
Zur Wechselwirkung von Pre-Training, Mid-Training und RL bei reasoningfähigen Sprachmodellen
Charlie Zhang Graham Neubig Xiang Yue

Abstract
Neuere Verfahren des Verstärkenden Lernens (Reinforcement Learning, RL) haben erhebliche Fortschritte bei der Verbesserung der Schlussfolgerungsfähigkeit von Sprachmodellen erbracht. Dennoch ist unklar, ob eine Nachtrainierung tatsächlich die Schlussfolgerungsfähigkeit eines Modells über das hinaus erweitert, was es während der Vortrainierung erlernt hat. Ein zentrales Problem liegt in der mangelnden Kontrolle moderner Trainingspipelines: große Korpora für die Vortrainierung sind undurchsichtig, der Mittelteil des Trainings wird oft vernachlässigt, und RL-Zielfunktionen interagieren auf komplexe Weise mit unbekanntem Vorwissen. Um diese Unsicherheit zu beseitigen, entwickeln wir einen vollständig kontrollierten experimentellen Rahmen, der die kausalen Beiträge der Vortrainierung, der Mittelphase des Trainings und der RL-basierten Nachtrainierung isoliert. Unser Ansatz nutzt synthetische Schlussfolgerungsaufgaben mit expliziten atomaren Operationen, analysierbaren schrittweisen Schlussfolgerungsspuren sowie systematische Manipulation der Trainingsverteilungen. Wir bewerten die Modelle entlang zweier Achsen: extrapolative Generalisierung auf komplexere Zusammensetzungen sowie kontextuelle Generalisierung über verschiedene Oberflächenkontexte hinweg. Mit diesem Rahmen klären wir widersprüchliche Ansichten zur Wirksamkeit von RL auf. Wir zeigen: 1) RL führt nur dann zu echten Leistungsgewinnen (gemessen an pass@128), wenn die Vortrainierung ausreichend Spielraum lässt und die RL-Daten die Grenze der Kompetenz des Modells ansprechen – Aufgaben am Rand der Machbarkeit, die zwar schwierig, aber noch nicht unerreichbar sind. 2) Kontextuelle Generalisierung erfordert lediglich eine minimale, aber ausreichende Vortrainingsexposition, danach kann RL zuverlässig transferieren. 3) Die Mittelphase des Trainings steigert die Leistung unter fixierter Rechenressource signifikant stärker als RL allein, was ihre zentrale, aber bisher unterschätzte Rolle in Trainingspipelines unterstreicht. 4) Prozessbasierte Belohnungen reduzieren Belohnungshacking und verbessern die Genauigkeit der Schlussfolgerungen. Zusammenfassend verdeutlichen diese Ergebnisse die Wechselwirkungen zwischen Vortrainierung, Mittelphase des Trainings und RL und legen eine Grundlage für das Verständnis und die Verbesserung von Strategien zur Entwicklung von Schlussfolgerungsfähigkeiten in Sprachmodellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.