MiniMax-M1: ライトニング・アテンションを用いてテスト時の計算リソースを効率的にスケーリング

MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun

公開日: 6/17/2025

MiniMax-M1: ライトニング・アテンションを用いてテスト時の計算リソースを効率的にスケーリング

要約

世界初のオープンウェイト、大規模なハイブリッドアテンション推論モデルである「MiniMax-M1」を紹介します。MiniMax-M1は、ハイブリッドなエキスパートの混合（Mixture-of-Experts: MoE）アーキテクチャと高速アテンションメカニズムを組み合わせて構築されています。このモデルは、当社が以前に開発した4560億パラメータを持つMiniMax-Text-01モデルに基づいています。MiniMax-Text-01では、各トークンあたり45.9億のパラメータが活性化されます。M1モデルは、最大100万トークンのコンテキスト長をネイティブでサポートしており、DeepSeek R1のコンテキストサイズの8倍です。さらに、MiniMax-M1の高速アテンションメカニズムにより、テスト時の計算効率が大幅に向上しています。これらの特性により、M1は長い入力データを処理し、広範囲にわたる思考が必要な複雑なタスクに特に適しています。MiniMax-M1は、サンドボックスベースや実世界のソフトウェアエンジニアリング環境など多様な問題に対する大規模強化学習（Reinforcement Learning: RL）によって訓練されています。M1が持つRL訓練における内在的な効率性の優位性に加えて、私たちはCISPOという新しいRLアルゴリズムを提案します。CISPOはトークン更新ではなく重要度サンプリング重みをクリッピングすることで、他の競合するRL変種よりも優れた性能を発揮します。ハイブリッドアテンションとCISPOを組み合わせることで、512台のH800 GPUを使用して MiniMax-M1 の完全なRL訓練をわずか3週間で完了させることができました。そのレンタルコストは約53万4700ドルでした。私たちは4万思考予算と8万思考予算を持つ2つのバージョンの MiniMax-M1 モデルを公開しています。4万思考予算モデルは8万思考予算モデルの中間段階でのトレーニング結果を表しています。標準的なベンチマークでの実験結果によると、当社のモデルは元のDeepSeek-R1やQwen3-235Bなどの強力なオープンウェイトモデルと同等かそれ以上であり、特に複雑なソフトウェアエンジニアリングやツール利用、長コンテキストタスクにおいて優れた性能を示しています。MiniMax-M1は公開されており、ダウンロードページは以下のURLです：https://github.com/MiniMax-AI/MiniMax-M1

論文の詳細を見る View Code