12日前

PromptCoT 2.0:大規模言語モデル推論のためのプロンプト生成のスケーリング

Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
PromptCoT 2.0:大規模言語モデル推論のためのプロンプト生成のスケーリング
要約

大規模言語モデル(LLM)は、オリンピック数学や競技プログラミングなどの課題に対する強力な推論能力を持つよう進化している。パラメータのスケーリングやテスト時計算の拡張によって進展が見られた一方で、高品質な訓練問題の不足が主な課題となっている。人手によるデータセットは費用が高く、限界がある一方で、既存の合成コーパスはしばしば難易度が低すぎたり、範囲が狭すぎたりする。PromptCoT 1.0は、プロンプト生成に推論過程(rationales)を組み込むことで、問題の難易度を向上させることを示した。これを踏まえ、本研究では、手動で設計されたヒューリスティクスに代わり、期待値最大化(EM)ループを用いるスケーラブルなフレームワークであるPromptCoT 2.0を提案する。この手法では、推論過程を反復的に精緻化することで、プロンプトの構築をガイドする。その結果、従来のコーパスよりも難易度が高く、多様性にも富んだ問題が生成される。この合成プロンプトは、以下の2つの微調整戦略をサポートする:(1)自己対戦(Self-Play):強力なモデルが、より強力な教師なしに検証可能なフィードバックを通じて自律的に改善される;(2)教師知識蒸留による教師付き微調整(SFT):弱いモデルが教師から蒸留された推論トレースから学習する。広範な実験により、本手法の有効性が確認された。自己対戦において、Qwen3-30B-A3B-Thinking-2507にPromptCoT 2.0を適用した結果、30B規模で新たな最先端性能を達成し、AIME 24/25ではそれぞれ+4.4、+4.8、+5.3の向上、HMMT 25では+6.1、LiveCodeBench v5/v6では+5.0、Codeforcesでは+35 Eloの改善を記録した。SFTでは、Qwen2.5-7B-Instructを合成プロンプトのみで訓練した結果、AIME 24で73.1、AIME 25で65.6、LiveCodeBench v5で53.4の精度を達成し、人手データまたはハイブリッドデータで訓練されたモデルを上回った。さらに分析により、PromptCoT 2.0が根本的に難易度が高く、分布的にも異なる問題を生成することが裏付けられた。これらの結果は、プロンプト生成が推論能力のスケーリングの新たな軸となり得ることを示し、PromptCoT 2.0が今後のオープンソースモデルのスケーラブルな基盤となる可能性を示している。実装コードは以下のURLから公開されている。