MiniMax-M1 : Échelonner l'efficacité du calcul en temps de test avec l'Attention Rapide

Nous présentons MiniMax-M1, le premier modèle de raisonnement à grande échelle avec une architecture hybride d'attention et des poids ouverts au monde. MiniMax-M1 est alimenté par une architecture hybride de Mixture-of-Experts (MoE) combinée à un mécanisme d'attention fulgurante. Le modèle est développé sur la base de notre précédent modèle MiniMax-Text-01, qui compte un total de 456 milliards de paramètres, dont 45,9 milliards sont activés par jeton. Le modèle M1 prend en charge nativement une longueur de contexte de 1 million de jetons, soit 8 fois la taille du contexte du modèle DeepSeek R1. De plus, le mécanisme d'attention fulgurante dans MiniMax-M1 permet une mise à l'échelle efficace des calculs lors des tests. Ces propriétés rendent M1 particulièrement adapté aux tâches complexes nécessitant le traitement d'entrées longues et une réflexion approfondie. MiniMax-M1 est formé à l'aide d'un apprentissage par renforcement (RL) à grande échelle sur divers problèmes, notamment des environnements d'ingénierie logicielle basés sur des bac à sable. Outre l'avantage inhérent en termes d'efficacité pour la formation RL du modèle M1, nous proposons CISPO, un nouvel algorithme RL pour améliorer encore davantage l'efficacité de RL. CISPO coupe les poids d'échantillonnage pondéré plutôt que les mises à jour de jetons, surpassant ainsi d'autres variantes compétitives de RL. La combinaison de l'attention hybride et de CISPO permet au modèle MiniMax-M1 d'être entièrement formé par RL sur 512 GPU H800 en seulement trois semaines, avec un coût de location de seulement 534 700 dollars. Nous mettons à disposition deux versions du modèle MiniMax-M1 avec des budgets de réflexion respectifs de 40K et 80K, où le modèle 40K représente une phase intermédiaire du processus de formation du modèle 80K. Les expériences menées sur des benchmarks standards montrent que nos modèles sont comparables ou supérieurs aux modèles ouverts forts tels que le DeepSeek-R1 original et le Qwen3-235B, avec des forces particulières dans les domaines de l'ingénierie logicielle complexe, l'utilisation d'outils et les tâches à long contexte. Nous publions MiniMax-M1 publiquement sur https://github.com/MiniMax-AI/MiniMax-M1.Note : - "Sandbox-based" a été traduit par "basés sur des bac à sable", ce qui est couramment utilisé dans le domaine informatique pour désigner des environnements test.- "Thinking budget" a été traduit littéralement par "budget de réflexion" car il n'existe pas d'équivalent direct en français dans ce contexte.- "Lightning attention" a été traduit par "attention fulgurante" pour conserver la notion d'extrême rapidité tout en restant compréhensible pour un lecteur francophone.- L'expression "poids ouverts" a été utilisée pour traduire "open-weight", bien qu'il n'y ait pas d'équivalent standard en français ; cette formulation vise à transmettre l'idée que les poids du modèle sont accessibles et non verrouillés.- Tous les noms propres (comme MiniMax-M1, DeepSeek R1, etc.) ont été conservés tels quels.