Shanghai-Forscher entwickeln OctoThinker-Modell für bessere RL-Skalierung
Forscher der Shanghai Jiao Tong University schlagen OctoThinker für die Erweiterung von LLMs in Verstärkungslernen vor Einführung: Fortschritte im Verstärkungslernen durch Kette-von-Gedanken-Aufforderung (CoT) Große Sprachmodelle (LLMs) haben in komplexen Denkaufgaben durch die Kombination von Kette-von-Gedanken-Aufforderungen (CoT) und groß angelegtem Verstärkungslernen (RL) erhebliche Fortschritte gemacht. Modelle wie Deepseek-R1-Zero haben durch die direkte Anwendung von RL auf Basismodelle starke Fähigkeiten im Denken gezeigt. Ähnlich verbessern Methoden wie SimpleRL und Open-ReasonerZero die Leistung kleinerer Modelle wie der Qwen-Serie. Allerdings bleibt es schwierig, Erfolge über verschiedene Basismodellfamilien hinweg zu erzielen. Besonders das Anwenden von R1-Zero-stilischem Training auf Basismodelle wie die Llama-Serie stellt eine Herausforderung dar und wirft grundlegende Fragen auf, warum verschiedene Basismodelle während des Verstärkungslernens inkonsistent reagieren. Einschränkungen des RL-Skalierens bei Llama-Modellen Groß angelegte Verstärkungslernerfolge in Modellen wie OpenAI’s o1, o3 und DeepSeek’s R1 bei Wettbewerbsmathematikproblemen haben die Exploration von RL auf kleineren Modellen mit weniger als 100 Milliarden Parametern angeregt. Diese Bemühungen konzentrieren sich jedoch hauptsächlich auf die Qwen-Modellfamilie. Das Reproduzieren der Ergebnisse bei Modellfamilien wie Llama ist schwierig, da die Transparenz von Pre-Training-Pipelines fehlt, was das Verständnis dafür erschwert, wie Pre-Training den Skalierungserfolg von RL beeinflusst. Unkonventionelle Studien zeigten, dass ein-Shot-Aufforderungen das Denken in Qwen verbessern, bei Llama jedoch wenig Nutzen bieten. Projekte zur Curation hochwertiger mathematischer Pre-Training-Datensätze wie OpenWebMath, MathPile, InfiMM-Web-Math und FineMath haben Fortschritte gemacht, bleiben aber unter 100 Milliarden Token begrenzt. Erkundung von Mid-Training mit einer stabil-dann-verfallenden Strategie Forscher der Shanghai Jiao Tong University untersuchen, wie Mid-Training-Strategien die Dynamik von RL formen, wobei sie sich auf die Qwen- und Llama-Modelle konzentrieren. Die Studie liefert mehrere Erkenntnisse: Erstens erhöhen hochwertige mathematische Korpora wie MegaMath-Web-Pro die Leistung sowohl der Basismodelle als auch des RL. Zweitens verbessern QA-stilige Daten, insbesondere solche mit langen CoT-Argumentationen, die RL-Ergebnisse weiter. Drittens führt langes CoT zu Redundanz und Instabilität im RL-Training. Schließlich zeigt das Skalieren während des Mid-Trainings eine stärkere nachgeschaltete RL-Leistung. Die Forscher stellen eine zweistufige Mid-Training-Strategie namens Stable-then-Decay vor, bei der Basismodelle zunächst auf 200 Milliarden Token trainiert werden, gefolgt von 20 Milliarden Token in drei CoT-fokussierten Verzweigungen. Dies führt zu OctoThinker-Modellen, die eine starke RL-Kompatibilität zeigen. RL-Konfiguration und Benchmark-Bewertung Die Forscher verwenden den MATH8K-Datensatz für RL-Training-Aufforderungen. Die Konfiguration umfasst eine globale Trainingsbatchgröße von 128, 16 Rollout-Antworten pro Abfrage und einen PPO-Minibatch-Größe von 64. Die Experimente wurden an den Modellen Llama-3.2-3B-Base und Qwen2.5-3B-Base durchgeführt. Bei der Bewertung wurden Basissprachmodelle mit Few-Shot-Aufforderungen und RL-tunete Modelle mit Zero-Shot-Aufforderungen an Indikatoraufgaben wie GSM8K, MATH500, OlympiadBench und AMC23 getestet. Während des RL-Trainings zeigen Qwen-Modelle steigende Antwortlängen, die jedoch den ganzen Weg über vernünftig bleiben. Im Gegensatz dazu zeigt Llama ungewöhnliches Verhalten, wobei die durchschnittlichen Antwortlängen auf 4.096 Token ansteigen. Die Bewertung ergab, dass das RL-tunete Qwen2.5-3B-Modell bei allen Benchmarks Verbesserungen erzielt, während Llama-3.2-3B nur marginale Gewinne zeigt. OctoThinker übertrifft Llama in RL-Kompatibilität Jede OctoThinker-Verzweigung zeigt 10-20% Verbesserung über das ursprüngliche Llama-Basismodell und konsistente Gewinne über das stabile Modell in allen Größen bei der Bewertung an 13 mathematischen Benchmarks. Die OctoThinker-Zero-Familien offenbaren vielfältiges Denkverhalten während des RL-Skalierens, wobei das OctoThinker-Long-Modell besonders starke Leistungen erzielt. Bei einem Vergleich dreier Basismodelle mit 3 Milliarden Parametern während des RL-Trainings übertrifft das OctoThinker-Long-3B-Modell das ursprüngliche Llama-3.2-3B-Modell und erreicht eine vergleichbare Leistung wie das bekannte Qwen2.5-3B-Modell, das für seine starken Denkfähigkeiten und umfangreiche Pre-Training bekannt ist. Die hybrid und kurze Verzweigungen zeigen geringfügig niedrigere Leistungen, insbesondere bei anspruchsvollen Benchmarks. Zukunftsperspektiven: Auf RL-optimierte Basismodelle hin Dieses Papier untersucht, warum Basismodelle wie Llama und Qwen während des RL für Denkaufgaben unterschiedliche Verhaltensweisen zeigen, und zeigt, dass Mid-Training eine große Rolle bei der RL-Skalierung spielt. Die zweistufige Mid-Training-Strategie verwandelt Llama in ein Basismodell, das besser für RL geeignet ist, und führt zu OctoThinker-Modellen. Zukünftige Forschungsrichtungen beinhalten: Optimierung der Mid-Training-Strategie für weitere Basismodellfamilien Verbesserung der Datencuration für mathematische Aufgaben Erweiterung der Skalierungsfähigkeiten von RL-Trainingsmethoden Diese Arbeit legt den Grundstein für die Entwicklung von Basismodellen, die für Verstärkungslernen optimiert sind, und bietet wichtige Einblicke in die Dynamiken zwischen Pre-Training und RL. Die OctoThinker-Modelle haben das Potenzial, die Leistung von LLMs in mathematischen und logischen Aufgaben erheblich zu verbessern. Branchenexperten sind der Ansicht, dass die Arbeit der Forscher von Shanghai Jiao Tong University einen wichtigen Beitrag zur Weiterentwicklung von Verstärkungslernmethoden für große Sprachmodelle leistet. Die Einführung der Stable-then-Decay-Strategie könnte die Brücke zwischen verschiedenen Basismodellfamilien bauen und die Leistung von LLMs im Bereich des maschinellen Denkens erheblich steigern. Die Shanghai Jiao Tong University ist bekannt für ihre fortschrittlichen Beiträge im Bereich der Künstlichen Intelligenz und fortschreitendes Lernen, und die OctoThinker-Modelle gelten als ein wichtiger Meilenstein in dieser Entwicklung.