HyperAIHyperAI

Command Palette

Search for a command to run...

MiroMind-M1:コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展

概要

大規模言語モデルは、最近、多様な分野において流暢なテキスト生成から高度な推論に進化し、推論用言語モデル(Reasoning Language Models: RLMs)が登場しています。その中でも数学的推論は、正確な多段論理や抽象的推論を必要とする代表的なベンチマークとして機能します。これは他のタスクにも一般化できる特性を持っています。GPT-o3などの閉鎖型RLMは、印象的な推論能力を示していますが、その特許性により透明性と再現性が制限されています。多くのオープンソースプロジェクトがこのギャップを埋めようとしていますが、データセットや詳細なトレーニング設定といった重要なリソースが欠如しているため、多くは十分なオープン性を欠いています。これにより、再現性が妨げられています。RLM開発における透明性の向上に貢献するため、私たちはQwen-2.5をベースにした完全オープンソースのRLMシリーズである「MiroMind-M1シリーズ」を紹介します。このシリーズは、既存のオープンソースRLMと同等またはそれを上回る性能を持っています。特に、私たちは以下の2段階でモデルをトレーニングしています:第一段階として、検証済みのChain-of-Thought(CoT)経路を備えた719,000問の数学的推論問題からなる厳選されたコーパスでのSFT(Supervised Fine-Tuning);第二段階として、62,000問の難易度が高く検証可能な問題に対するRLVR(Reinforcement Learning with Verified Rewards)の実施。RLVRプロセスの堅牢性と効率を向上させるために、私たちは「コンテキストに配慮したマルチステージポリシー最適化(Context-Aware Multi-Stage Policy Optimization)」というアルゴリズムを導入しました。このアルゴリズムは、長さに応じたトレーニングと適応的な繰り返しペナルティを統合し、コンテキストに配慮したRLトレーニングを促進します。本モデルは、AIME24、AIME25、MATHのベンチマークにおいて、Qwen-2.5をベースにしたオープンソースの7Bおよび32Bモデルの中で、最前線の性能または競争力のある性能と、優れたトークン効率を達成しています。再現性を促進するため、モデル(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)、データセット(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)、およびすべてのトレーニングおよび評価設定を公開しました。これらのリソースが今後の研究を支援し、コミュニティの発展を促進することを願っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MiroMind-M1:コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展 | 記事 | HyperAI超神経