vor 4 Monaten

OctoThinker: Mid-Training fördert die Skalierung des Reinforcement Learnings

Details der Forschungsarbeit anzeigen Code anzeigen

Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

OctoThinker: Mid-Training fördert die Skalierung des Reinforcement Learnings

Abstract

Verschiedene Basismodellfamilien, wie Llama und Qwen, zeigen während des Post-Trainings mit Verstärkungslernen (RL) abweichendes Verhalten, insbesondere bei aufschlussintensiven Aufgaben. Was macht ein Basismodell für das Verstärkungslernen geeignet? Ein tieferes Verständnis dieser Frage ist entscheidend für die Entwicklung von RL-skalierbaren Grundmodellen der nächsten Generation. In dieser Arbeit untersuchen wir, wie Mid-Training-Strategien die RL-Dynamik beeinflussen, wobei wir uns auf zwei repräsentative Modellfamilien konzentrieren: Qwen und Llama. Unsere Studie zeigt, dass (1) hochwertige mathematische Korpora, wie MegaMath-Web-Pro, die Leistung sowohl des Basismodells als auch des RL signifikant verbessern, während bestehende Alternativen (z.B. FineMath-4plus) dies nicht tun; (2) das Hinzufügen von QA-stilistischen Daten, insbesondere langer Kette-von-Gedanken (CoT)-Schlüsselelemente, die RL-Ergebnisse verstärkt und Anweisungsdaten diesen Effekt weiter auslösen; (3) obwohl lange CoT die Tiefe des Schließvermögens erhöhen, können sie auch zur Ausführlichkeit der Modellanworten und zur Instabilität des RL-Trainings führen, was die Bedeutung der Datenaufbereitung unterstreicht; (4) das Skalieren des Mid-Trainings führt konsistent zu stärkerer nachgeschalteter RL-Leistung. Aufbauend auf diesen Erkenntnissen stellen wir eine zweistufige Mid-Training-Strategie vor: Stable-then-Decay. Dabei werden die Basismodelle zunächst mit einer konstanten Lernrate auf 200 Milliarden Token trainiert und anschließend über drei CoT-fokussierte Zweige mit 20 Milliarden Token und abnehmender Lernrate weitertrainiert. Dies ergibt OctoThinker, eine Familie von Modellen, die starke RL-Kompatibilität zeigt und den Leistungsunterschied zu modellfamilien schließt, die für RL besser geeignet sind, z.B. Qwen. Wir hoffen, dass unsere Arbeit dazu beiträgt, Vor-Training-Strategien für Grundmodelle im Zeitalter des Verstärkungslernens zu gestalten. Um weitere Forschungen zu unterstützen, veröffentlichen wir unsere Open-Source-Modelle zusammen mit einem küratierten mathematischen Korpus mit über 70 Milliarden Token (d.h., MegaMath-Web-Pro-Max).

Code-Repositories

gair-nlp/octothinker

Offiziell

pytorch

In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp