Command Palette
Search for a command to run...
OctoThinker: Mid-Training fördert die Skalierung des Reinforcement Learnings
Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

Abstract
Verschiedene Basismodellfamilien, wie Llama und Qwen, zeigen während des Post-Trainings mit Verstärkungslernen (RL) abweichendes Verhalten, insbesondere bei aufschlussintensiven Aufgaben. Was macht ein Basismodell für das Verstärkungslernen geeignet? Ein tieferes Verständnis dieser Frage ist entscheidend für die Entwicklung von RL-skalierbaren Grundmodellen der nächsten Generation. In dieser Arbeit untersuchen wir, wie Mid-Training-Strategien die RL-Dynamik beeinflussen, wobei wir uns auf zwei repräsentative Modellfamilien konzentrieren: Qwen und Llama. Unsere Studie zeigt, dass (1) hochwertige mathematische Korpora, wie MegaMath-Web-Pro, die Leistung sowohl des Basismodells als auch des RL signifikant verbessern, während bestehende Alternativen (z.B. FineMath-4plus) dies nicht tun; (2) das Hinzufügen von QA-stilistischen Daten, insbesondere langer Kette-von-Gedanken (CoT)-Schlüsselelemente, die RL-Ergebnisse verstärkt und Anweisungsdaten diesen Effekt weiter auslösen; (3) obwohl lange CoT die Tiefe des Schließvermögens erhöhen, können sie auch zur Ausführlichkeit der Modellanworten und zur Instabilität des RL-Trainings führen, was die Bedeutung der Datenaufbereitung unterstreicht; (4) das Skalieren des Mid-Trainings führt konsistent zu stärkerer nachgeschalteter RL-Leistung. Aufbauend auf diesen Erkenntnissen stellen wir eine zweistufige Mid-Training-Strategie vor: Stable-then-Decay. Dabei werden die Basismodelle zunächst mit einer konstanten Lernrate auf 200 Milliarden Token trainiert und anschließend über drei CoT-fokussierte Zweige mit 20 Milliarden Token und abnehmender Lernrate weitertrainiert. Dies ergibt OctoThinker, eine Familie von Modellen, die starke RL-Kompatibilität zeigt und den Leistungsunterschied zu modellfamilien schließt, die für RL besser geeignet sind, z.B. Qwen. Wir hoffen, dass unsere Arbeit dazu beiträgt, Vor-Training-Strategien für Grundmodelle im Zeitalter des Verstärkungslernens zu gestalten. Um weitere Forschungen zu unterstützen, veröffentlichen wir unsere Open-Source-Modelle zusammen mit einem küratierten mathematischen Korpus mit über 70 Milliarden Token (d.h., MegaMath-Web-Pro-Max).
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.