MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention

Wir stellen MiniMax-M1 vor, das erste offene, großskalige hybride Aufmerksamkeitsmodell zur Schlußfolgerung. MiniMax-M1 wird durch eine hybride Expertenmischungsarchitektur (Mixture-of-Experts, MoE) in Verbindung mit einem Blitz-Aufmerksamkeitsmechanismus angetrieben. Das Modell wurde auf Basis unseres früheren MiniMax-Text-01-Modells entwickelt, das insgesamt 456 Milliarden Parameter enthält, von denen 45,9 Milliarden pro Token aktiviert werden. Das M1-Modell unterstützt nativ eine Kontextlänge von einer Million Tokens, was acht Mal die Kontextgröße des DeepSeek R1 entspricht. Darüber hinaus ermöglicht der Blitz-Aufmerksamkeitsmechanismus in MiniMax-M1 eine effiziente Skalierung der Berechnungen während der Testphase. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die langsame Eingaben und umfangreiche Überlegungen erfordern.MiniMax-M1 wird unter Verwendung großskaliger Verstärkungslernen (Reinforcement Learning, RL) bei diversen Problemen trainiert, darunter sandkastenbasierte und realweltliche Softwareentwicklungsumgebungen. Neben dem inhärenten Effizienzvorteil des M1-Modells für das RL-Training schlagen wir CISPO vor, einen neuen RL-Algorithmus zur weiteren Steigerung der RL-Effizienz. CISPO kürzt die Gewichte des Importance Sampling anstelle von Tokenaktualisierungen und übertrifft andere wettbewerbsfähige RL-Varianten. Die Kombination von hybrider Aufmerksamkeit und CISPO ermöglicht es MiniMax-M1, seine vollständige RL-Trainingsphase auf 512 H800-GPUs innerhalb von nur drei Wochen abzuschließen, wobei die Mietkosten lediglich $534.700 betragen.Wir veröffentlichen zwei Versionen des MiniMax-M1-Modells mit den Denetatschen Budgets von 40K und 80K respektive, wobei das 40K-Modell eine Zwischenphase des Trainings des 80K-Modells darstellt. Experimente an Standard-Benchmarks zeigen, dass unsere Modelle vergleichbar oder überlegen sind gegenüber starken offenen Modellen wie dem ursprünglichen DeepSeek-R1 und Qwen3-235B, insbesondere in komplexer Softwareentwicklung, Werkzeugnutzung und Aufgaben mit langem Kontext. Wir geben MiniMax-M1 öffentlich frei: https://github.com/MiniMax-AI/MiniMax-M1.