Command Palette
Search for a command to run...
Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

要約
異なるベース言語モデルのファミリー、例えばLlamaやQwenは、強化学習(RL)による後学習中に異なる挙動を示し、特に推論タスクにおいて顕著です。どのような特徴がベース言語モデルを強化学習に適したものにするのでしょうか?この質問に対するより深い理解は、次世代のRLスケーラブルな基礎モデルを開発するために不可欠です。本研究では、中間学習戦略がRLダイナミクスにどのように影響を与えるかを調査し、代表的な2つのモデルファミリーであるQwenとLlamaに焦点を当てました。本研究の結果、(1) 高品質な数学コーパス(例:MegaMath-Web-Pro)は、ベースモデルおよびRLパフォーマンスを大幅に向上させる一方で、既存の代替手段(例:FineMath-4plus)はその効果を示せませんでした;(2) さらにQA形式のデータ、特に長鎖思考(CoT)推論の例を追加することでRLの結果が向上し、指示データがこの効果をさらに引き出すことが確認されました;(3) 長鎖思考(CoT)は推論の深さを改善しますが、同時にモデル応答の冗長性やRL学習の不安定性も誘発する可能性があり、データフォーマットの重要性が強調されました;(4) 中間学習のスケーリングは一貫して下流でのRLパフォーマンス向上につながることが明らかになりました。これらの知見に基づき、我々は2段階の中間学習戦略「安定化-その後-劣化」(Stable-then-Decay)を提案します。この戦略では、まずベースモデルを一定の学習率で2000億トークンに対して学習させた後、3つのCoTに焦点を当てたブランチで200億トークンに対して学習率を減衰させながら学習を行います。これにより生成されたOctoThinkerというモデルファミリーは、強いRL適合性を持ちつつ、よりRLフレンドリーなモデルファミリー(例:Qwen)との性能差を縮めることが可能となりました。我々は本研究が強化学習時代における基礎モデルの事前学習戦略設計に貢献することを期待しています。さらなる研究支援のために、オープンソースのモデルと700億以上のトークンから構成される数学推論重視コーパス(例:MegaMath-Web-Pro-Max)を公開します。