MiniMax-M1 : Échelonner l'efficacité du calcul en temps de test avec l'Attention Rapide

MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun

Date de publication: 6/17/2025

MiniMax-M1 : Échelonner l'efficacité du calcul en temps de test avec l'Attention Rapide

Résumé

Nous présentons MiniMax-M1, le premier modèle de raisonnement à grande échelle avec une architecture hybride d'attention et des poids ouverts au monde. MiniMax-M1 est alimenté par une architecture hybride de Mixture-of-Experts (MoE) combinée à un mécanisme d'attention fulgurante. Le modèle est développé sur la base de notre précédent modèle MiniMax-Text-01, qui compte un total de 456 milliards de paramètres, dont 45,9 milliards sont activés par jeton. Le modèle M1 prend en charge nativement une longueur de contexte de 1 million de jetons, soit 8 fois la taille du contexte du modèle DeepSeek R1. De plus, le mécanisme d'attention fulgurante dans MiniMax-M1 permet une mise à l'échelle efficace des calculs lors des tests. Ces propriétés rendent M1 particulièrement adapté aux tâches complexes nécessitant le traitement d'entrées longues et une réflexion approfondie. MiniMax-M1 est formé à l'aide d'un apprentissage par renforcement (RL) à grande échelle sur divers problèmes, notamment des environnements d'ingénierie logicielle basés sur des bac à sable. Outre l'avantage inhérent en termes d'efficacité pour la formation RL du modèle M1, nous proposons CISPO, un nouvel algorithme RL pour améliorer encore davantage l'efficacité de RL. CISPO coupe les poids d'échantillonnage pondéré plutôt que les mises à jour de jetons, surpassant ainsi d'autres variantes compétitives de RL. La combinaison de l'attention hybride et de CISPO permet au modèle MiniMax-M1 d'être entièrement formé par RL sur 512 GPU H800 en seulement trois semaines, avec un coût de location de seulement 534 700 dollars. Nous mettons à disposition deux versions du modèle MiniMax-M1 avec des budgets de réflexion respectifs de 40K et 80K, où le modèle 40K représente une phase intermédiaire du processus de formation du modèle 80K. Les expériences menées sur des benchmarks standards montrent que nos modèles sont comparables ou supérieurs aux modèles ouverts forts tels que le DeepSeek-R1 original et le Qwen3-235B, avec des forces particulières dans les domaines de l'ingénierie logicielle complexe, l'utilisation d'outils et les tâches à long contexte. Nous publions MiniMax-M1 publiquement sur https://github.com/MiniMax-AI/MiniMax-M1.Note : - "Sandbox-based" a été traduit par "basés sur des bac à sable", ce qui est couramment utilisé dans le domaine informatique pour désigner des environnements test.- "Thinking budget" a été traduit littéralement par "budget de réflexion" car il n'existe pas d'équivalent direct en français dans ce contexte.- "Lightning attention" a été traduit par "attention fulgurante" pour conserver la notion d'extrême rapidité tout en restant compréhensible pour un lecteur francophone.- L'expression "poids ouverts" a été utilisée pour traduire "open-weight", bien qu'il n'y ait pas d'équivalent standard en français ; cette formulation vise à transmettre l'idée que les poids du modèle sont accessibles et non verrouillés.- Tous les noms propres (comme MiniMax-M1, DeepSeek R1, etc.) ont été conservés tels quels.

Voir les détails de l'article View Code