MiniMax-M1: ライトニング・アテンションを用いてテスト時の計算リソースを効率的にスケーリング

世界初のオープンウェイト、大規模なハイブリッドアテンション推論モデルである「MiniMax-M1」を紹介します。MiniMax-M1は、ハイブリッドなエキスパートの混合(Mixture-of-Experts: MoE)アーキテクチャと高速アテンションメカニズムを組み合わせて構築されています。このモデルは、当社が以前に開発した4560億パラメータを持つMiniMax-Text-01モデルに基づいています。MiniMax-Text-01では、各トークンあたり45.9億のパラメータが活性化されます。M1モデルは、最大100万トークンのコンテキスト長をネイティブでサポートしており、DeepSeek R1のコンテキストサイズの8倍です。さらに、MiniMax-M1の高速アテンションメカニズムにより、テスト時の計算効率が大幅に向上しています。これらの特性により、M1は長い入力データを処理し、広範囲にわたる思考が必要な複雑なタスクに特に適しています。MiniMax-M1は、サンドボックスベースや実世界のソフトウェアエンジニアリング環境など多様な問題に対する大規模強化学習(Reinforcement Learning: RL)によって訓練されています。M1が持つRL訓練における内在的な効率性の優位性に加えて、私たちはCISPOという新しいRLアルゴリズムを提案します。CISPOはトークン更新ではなく重要度サンプリング重みをクリッピングすることで、他の競合するRL変種よりも優れた性能を発揮します。ハイブリッドアテンションとCISPOを組み合わせることで、512台のH800 GPUを使用して MiniMax-M1 の完全なRL訓練をわずか3週間で完了させることができました。そのレンタルコストは約53万4700ドルでした。私たちは4万思考予算と8万思考予算を持つ2つのバージョンの MiniMax-M1 モデルを公開しています。4万思考予算モデルは8万思考予算モデルの中間段階でのトレーニング結果を表しています。標準的なベンチマークでの実験結果によると、当社のモデルは元のDeepSeek-R1やQwen3-235Bなどの強力なオープンウェイトモデルと同等かそれ以上であり、特に複雑なソフトウェアエンジニアリングやツール利用、長コンテキストタスクにおいて優れた性能を示しています。MiniMax-M1は公開されており、ダウンロードページは以下のURLです:https://github.com/MiniMax-AI/MiniMax-M1