HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 2 Tagen

Zur Wechselwirkung von Pre-Training, Mid-Training und RL bei reasoningfähigen Sprachmodellen

Charlie Zhang Graham Neubig Xiang Yue

Zur Wechselwirkung von Pre-Training, Mid-Training und RL bei reasoningfähigen Sprachmodellen

Abstract

Neuere Verfahren des Verstärkenden Lernens (Reinforcement Learning, RL) haben erhebliche Fortschritte bei der Verbesserung der Schlussfolgerungsfähigkeit von Sprachmodellen erbracht. Dennoch ist unklar, ob eine Nachtrainierung tatsächlich die Schlussfolgerungsfähigkeit eines Modells über das hinaus erweitert, was es während der Vortrainierung erlernt hat. Ein zentrales Problem liegt in der mangelnden Kontrolle moderner Trainingspipelines: große Korpora für die Vortrainierung sind undurchsichtig, der Mittelteil des Trainings wird oft vernachlässigt, und RL-Zielfunktionen interagieren auf komplexe Weise mit unbekanntem Vorwissen. Um diese Unsicherheit zu beseitigen, entwickeln wir einen vollständig kontrollierten experimentellen Rahmen, der die kausalen Beiträge der Vortrainierung, der Mittelphase des Trainings und der RL-basierten Nachtrainierung isoliert. Unser Ansatz nutzt synthetische Schlussfolgerungsaufgaben mit expliziten atomaren Operationen, analysierbaren schrittweisen Schlussfolgerungsspuren sowie systematische Manipulation der Trainingsverteilungen. Wir bewerten die Modelle entlang zweier Achsen: extrapolative Generalisierung auf komplexere Zusammensetzungen sowie kontextuelle Generalisierung über verschiedene Oberflächenkontexte hinweg. Mit diesem Rahmen klären wir widersprüchliche Ansichten zur Wirksamkeit von RL auf. Wir zeigen: 1) RL führt nur dann zu echten Leistungsgewinnen (gemessen an pass@128), wenn die Vortrainierung ausreichend Spielraum lässt und die RL-Daten die Grenze der Kompetenz des Modells ansprechen – Aufgaben am Rand der Machbarkeit, die zwar schwierig, aber noch nicht unerreichbar sind. 2) Kontextuelle Generalisierung erfordert lediglich eine minimale, aber ausreichende Vortrainingsexposition, danach kann RL zuverlässig transferieren. 3) Die Mittelphase des Trainings steigert die Leistung unter fixierter Rechenressource signifikant stärker als RL allein, was ihre zentrale, aber bisher unterschätzte Rolle in Trainingspipelines unterstreicht. 4) Prozessbasierte Belohnungen reduzieren Belohnungshacking und verbessern die Genauigkeit der Schlussfolgerungen. Zusammenfassend verdeutlichen diese Ergebnisse die Wechselwirkungen zwischen Vortrainierung, Mittelphase des Trainings und RL und legen eine Grundlage für das Verständnis und die Verbesserung von Strategien zur Entwicklung von Schlussfolgerungsfähigkeiten in Sprachmodellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zur Wechselwirkung von Pre-Training, Mid-Training und RL bei reasoningfähigen Sprachmodellen | Forschungsarbeiten | HyperAI