上海交通大学、強化学習用LLM開発の新戦略「OctoThinker」を提案
上海交通大学の研究者らが強化学習のためのスケーラブルなLLM開発において新的なアプローチ「OctoThinker」を提案しています。 大規模強化学習(RL)と思考過程の促進(Chain-of-Thought Prompting, CoT)の組み合わせにより、LLMは複雑な推論タスクでの優れた進歩を見せています。Deepseek-R1-ZeroやSimpleRL、Open-ReasonerZeroなどの手法は、Qwenシリーズなどの小型モデルでも強化学習を用いた推論能力の向上を実現しましたが、Llamaシリーズなどの異なる基本モデルファミリーに対する応用では問題が生じていました。特に、100억パラメータ未満のモデルに対する大規模RLの適用は難しく、RL訓練中の挙動の非一貫性の原因が明らかになっていませんでした。 この課題に対し、上海交通大学の研究チームは、中間訓練における各種戦略がRLダイナミクスにどのように影響を与えるかを探りました。彼らの研究では、以下の知見が得られました: 1. 高品質な数学コーパス(MegaMath-Web-Proなど)は、基本モデルだけでなくRLの結果も向上させます。 2. 長いCoT推論を持つQA形式のデータを使うことで、RLの結果はさらに改善します。 3. 長いCoT導入は、RL訓練の冗長さと不安定性を増加させます。 4. 中間訓練におけるスケーリングが、ダウンストリームのRLパフォーマンスを強化します。 これらの知見から、研究者は2段階の中間訓練戦略「Stable-then-Decay」を考案しました。最初に基本モデルに対して200億トークンの訓練を行い、その後で3つのCoTに関連した分野において20億トークンの追加訓練を施します。その結果、生成されたOctoThinkerモデルは、強化学習との互換性が高いことが示されました。 具体的には、MATH8Kデータセットを用いてRL訓練のプロンプトを作成し、Llama-3.2-3B-BaseとQwen2.5-3B-Baseのモデルで実験を行いました。評価では、ベース言語モデルには少ショットプロンプト、RL調整済みモデルにはゼロショットプロンプトを使用しました。評価対象のタスクにはGSM8K、MATH500、OlympiadBench、AMC23などが含まれます。RL訓練中、Qwenモデルは回答の長さが増えつつも合理的な範囲内に収まっていますが、Llamaモデルは異常に回答の長さが増加し、4096トークンもの平均長さに達しました。評価結果は、RL調整済みのQwen2.5-3Bがベンチマークの各タスクで改善を示した一方、Llama-3.2-3Bは微弱な成果しか得られませんでした。 OctoThinkerモデルは、ベースのLlamaモデルに比べて10%-20%の向上を示し、安定段階のモデルよりも一貫した改善を遂げました。13の数学ベンチマークで評価した結果、特にOctoThinker-Long Variantが強い性能を発揮しました。3億パラメータスケールの3つのベースモデルを比較した際、OctoThinker-Long-3Bは元のLlama-3.2-3Bモデルを上回り、推論能力と広範なプレトレーニングで知られるQwen2.5-3Bモデルと同等の性能を達成しています。 この研究は、不同类型の基本モデルが強化学習における推論能力の拡張においてどのように異なる行動を示すかを詳しく調査し、中間訓練の戦略が RLスケーラビリティに大きな影響を与えていることを示しました。これからは、中間訓練によってRLに適した基盤モデルの開発を目指すことが重要であると考えられています。 この研究成果に関する詳細は、論文やGitHubページで参照できます。上海交通大学の研究者たちに感謝の意を表したいと思います。また、同プロジェクトの進捗を追うために、研究者のTwitterフォローをおすすめします。この研究は、今後の大規模言語モデルの開発に多大な影響を与えるでしょう。