MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention

MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun

Veröffentlichungsdatum: 6/17/2025

MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention

Abstract

Wir stellen MiniMax-M1 vor, das erste offene, großskalige hybride Aufmerksamkeitsmodell zur Schlußfolgerung. MiniMax-M1 wird durch eine hybride Expertenmischungsarchitektur (Mixture-of-Experts, MoE) in Verbindung mit einem Blitz-Aufmerksamkeitsmechanismus angetrieben. Das Modell wurde auf Basis unseres früheren MiniMax-Text-01-Modells entwickelt, das insgesamt 456 Milliarden Parameter enthält, von denen 45,9 Milliarden pro Token aktiviert werden. Das M1-Modell unterstützt nativ eine Kontextlänge von einer Million Tokens, was acht Mal die Kontextgröße des DeepSeek R1 entspricht. Darüber hinaus ermöglicht der Blitz-Aufmerksamkeitsmechanismus in MiniMax-M1 eine effiziente Skalierung der Berechnungen während der Testphase. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die langsame Eingaben und umfangreiche Überlegungen erfordern.MiniMax-M1 wird unter Verwendung großskaliger Verstärkungslernen (Reinforcement Learning, RL) bei diversen Problemen trainiert, darunter sandkastenbasierte und realweltliche Softwareentwicklungsumgebungen. Neben dem inhärenten Effizienzvorteil des M1-Modells für das RL-Training schlagen wir CISPO vor, einen neuen RL-Algorithmus zur weiteren Steigerung der RL-Effizienz. CISPO kürzt die Gewichte des Importance Sampling anstelle von Tokenaktualisierungen und übertrifft andere wettbewerbsfähige RL-Varianten. Die Kombination von hybrider Aufmerksamkeit und CISPO ermöglicht es MiniMax-M1, seine vollständige RL-Trainingsphase auf 512 H800-GPUs innerhalb von nur drei Wochen abzuschließen, wobei die Mietkosten lediglich $534.700 betragen.Wir veröffentlichen zwei Versionen des MiniMax-M1-Modells mit den Denetatschen Budgets von 40K und 80K respektive, wobei das 40K-Modell eine Zwischenphase des Trainings des 80K-Modells darstellt. Experimente an Standard-Benchmarks zeigen, dass unsere Modelle vergleichbar oder überlegen sind gegenüber starken offenen Modellen wie dem ursprünglichen DeepSeek-R1 und Qwen3-235B, insbesondere in komplexer Softwareentwicklung, Werkzeugnutzung und Aufgaben mit langem Kontext. Wir geben MiniMax-M1 öffentlich frei: https://github.com/MiniMax-AI/MiniMax-M1.

Details der Forschungsarbeit anzeigen View Code