Command Palette
Search for a command to run...
MiroMind-M1:コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展
MiroMind-M1:コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展
概要
大規模言語モデルは、最近、多様な分野において流暢なテキスト生成から高度な推論に進化し、推論用言語モデル(Reasoning Language Models: RLMs)が登場しています。その中でも数学的推論は、正確な多段論理や抽象的推論を必要とする代表的なベンチマークとして機能します。これは他のタスクにも一般化できる特性を持っています。GPT-o3などの閉鎖型RLMは、印象的な推論能力を示していますが、その特許性により透明性と再現性が制限されています。多くのオープンソースプロジェクトがこのギャップを埋めようとしていますが、データセットや詳細なトレーニング設定といった重要なリソースが欠如しているため、多くは十分なオープン性を欠いています。これにより、再現性が妨げられています。RLM開発における透明性の向上に貢献するため、私たちはQwen-2.5をベースにした完全オープンソースのRLMシリーズである「MiroMind-M1シリーズ」を紹介します。このシリーズは、既存のオープンソースRLMと同等またはそれを上回る性能を持っています。特に、私たちは以下の2段階でモデルをトレーニングしています:第一段階として、検証済みのChain-of-Thought(CoT)経路を備えた719,000問の数学的推論問題からなる厳選されたコーパスでのSFT(Supervised Fine-Tuning);第二段階として、62,000問の難易度が高く検証可能な問題に対するRLVR(Reinforcement Learning with Verified Rewards)の実施。RLVRプロセスの堅牢性と効率を向上させるために、私たちは「コンテキストに配慮したマルチステージポリシー最適化(Context-Aware Multi-Stage Policy Optimization)」というアルゴリズムを導入しました。このアルゴリズムは、長さに応じたトレーニングと適応的な繰り返しペナルティを統合し、コンテキストに配慮したRLトレーニングを促進します。本モデルは、AIME24、AIME25、MATHのベンチマークにおいて、Qwen-2.5をベースにしたオープンソースの7Bおよび32Bモデルの中で、最前線の性能または競争力のある性能と、優れたトークン効率を達成しています。再現性を促進するため、モデル(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)、データセット(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)、およびすべてのトレーニングおよび評価設定を公開しました。これらのリソースが今後の研究を支援し、コミュニティの発展を促進することを願っています。