HyperAI

概要

大規模言語モデルは、最近、多様な分野において流暢なテキスト生成から高度な推論に進化し、推論用言語モデル（Reasoning Language Models: RLMs）が登場しています。その中でも数学的推論は、正確な多段論理や抽象的推論を必要とする代表的なベンチマークとして機能します。これは他のタスクにも一般化できる特性を持っています。GPT-o3などの閉鎖型RLMは、印象的な推論能力を示していますが、その特許性により透明性と再現性が制限されています。多くのオープンソースプロジェクトがこのギャップを埋めようとしていますが、データセットや詳細なトレーニング設定といった重要なリソースが欠如しているため、多くは十分なオープン性を欠いています。これにより、再現性が妨げられています。RLM開発における透明性の向上に貢献するため、私たちはQwen-2.5をベースにした完全オープンソースのRLMシリーズである「MiroMind-M1シリーズ」を紹介します。このシリーズは、既存のオープンソースRLMと同等またはそれを上回る性能を持っています。特に、私たちは以下の2段階でモデルをトレーニングしています：第一段階として、検証済みのChain-of-Thought（CoT）経路を備えた719,000問の数学的推論問題からなる厳選されたコーパスでのSFT（Supervised Fine-Tuning）；第二段階として、62,000問の難易度が高く検証可能な問題に対するRLVR（Reinforcement Learning with Verified Rewards）の実施。RLVRプロセスの堅牢性と効率を向上させるために、私たちは「コンテキストに配慮したマルチステージポリシー最適化（Context-Aware Multi-Stage Policy Optimization）」というアルゴリズムを導入しました。このアルゴリズムは、長さに応じたトレーニングと適応的な繰り返しペナルティを統合し、コンテキストに配慮したRLトレーニングを促進します。本モデルは、AIME24、AIME25、MATHのベンチマークにおいて、Qwen-2.5をベースにしたオープンソースの7Bおよび32Bモデルの中で、最前線の性能または競争力のある性能と、優れたトークン効率を達成しています。再現性を促進するため、モデル（MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B）、データセット（MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K）、およびすべてのトレーニングおよび評価設定を公開しました。これらのリソースが今後の研究を支援し、コミュニティの発展を促進することを願っています。

概要

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang

概要

AIでAIを構築

HyperAI Newsletters

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang

概要

AIでAIを構築

HyperAI Newsletters

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

MiroMind-M1：コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang8 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

MiroMind-M1：コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang8 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

MiroMind-M1：コンテキストに配慮したマルチステージポリシー最適化による数学的推論のオープンソースな進展

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang8 more

概要

AIでAIを構築

HyperAI Newsletters

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang

Xingxuan Li Yao Xiao Dianwen Ng Hai Ye Yue Deng Xiang Lin Bin Wang Zhanfeng Mo Chong Zhang Yueyi Zhang