MiniMax-M1:使用闪电注意力高效扩展测试时计算
MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun
发布日期: 6/17/2025

摘要
我们介绍了一种名为MiniMax-M1的世界首个开放权重、大规模混合注意力推理模型。MiniMax-M1采用了混合专家(Mixture-of-Experts, MoE)架构与闪电注意力机制相结合的设计。该模型基于我们先前的MiniMax-Text-01模型开发,后者总共包含4560亿个参数,每个标记激活45.9亿个参数。M1模型原生支持长达1百万个标记的上下文长度,是DeepSeek R1上下文长度的8倍。此外,MiniMax-M1中的闪电注意力机制使得测试时计算能够高效扩展。这些特性使得M1特别适用于需要处理长输入和进行深入思考的复杂任务。为了在多样化的任务中训练MiniMax-M1,包括基于沙箱的真实世界软件工程环境,我们使用了大规模强化学习(Reinforcement Learning, RL)。除了M1本身在RL训练中的效率优势外,我们还提出了一种新的RL算法——CISPO,以进一步提高RL效率。CISPO通过裁剪重要性采样权重而不是标记更新来超越其他竞争性的RL变体。结合使用混合注意力和CISPO,使得MiniMax-M1能够在仅534,700美元的租赁成本下,在512个H800 GPU上完成为期三周的完整RL训练。我们发布了两个版本的MiniMax-M1模型,分别具有40K和80K的思考预算,其中40K模型代表了80K训练过程中的一个中间阶段。在标准基准测试中的实验表明,我们的模型在性能上可与强大的开放权重模型如原始DeepSeek-R1和Qwen3-235B相媲美或优于它们,在复杂的软件工程、工具利用和长上下文任务方面表现出色。我们已公开发布MiniMax-M1,地址为https://github.com/MiniMax-AI/MiniMax-M1。