HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMax-M1: Effizientes Skalieren der Rechenleistung zur Laufzeit mit Lightning Attention

Zusammenfassung

Wir stellen MiniMax-M1 vor, das erste offene, großskalige hybride Aufmerksamkeitsmodell zur Schlußfolgerung. MiniMax-M1 wird durch eine hybride Expertenmischungsarchitektur (Mixture-of-Experts, MoE) in Verbindung mit einem Blitz-Aufmerksamkeitsmechanismus angetrieben. Das Modell wurde auf Basis unseres früheren MiniMax-Text-01-Modells entwickelt, das insgesamt 456 Milliarden Parameter enthält, von denen 45,9 Milliarden pro Token aktiviert werden. Das M1-Modell unterstützt nativ eine Kontextlänge von einer Million Tokens, was acht Mal die Kontextgröße des DeepSeek R1 entspricht. Darüber hinaus ermöglicht der Blitz-Aufmerksamkeitsmechanismus in MiniMax-M1 eine effiziente Skalierung der Berechnungen während der Testphase. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die langsame Eingaben und umfangreiche Überlegungen erfordern.MiniMax-M1 wird unter Verwendung großskaliger Verstärkungslernen (Reinforcement Learning, RL) bei diversen Problemen trainiert, darunter sandkastenbasierte und realweltliche Softwareentwicklungsumgebungen. Neben dem inhärenten Effizienzvorteil des M1-Modells für das RL-Training schlagen wir CISPO vor, einen neuen RL-Algorithmus zur weiteren Steigerung der RL-Effizienz. CISPO kürzt die Gewichte des Importance Sampling anstelle von Tokenaktualisierungen und übertrifft andere wettbewerbsfähige RL-Varianten. Die Kombination von hybrider Aufmerksamkeit und CISPO ermöglicht es MiniMax-M1, seine vollständige RL-Trainingsphase auf 512 H800-GPUs innerhalb von nur drei Wochen abzuschließen, wobei die Mietkosten lediglich $534.700 betragen.Wir veröffentlichen zwei Versionen des MiniMax-M1-Modells mit den Denetatschen Budgets von 40K und 80K respektive, wobei das 40K-Modell eine Zwischenphase des Trainings des 80K-Modells darstellt. Experimente an Standard-Benchmarks zeigen, dass unsere Modelle vergleichbar oder überlegen sind gegenüber starken offenen Modellen wie dem ursprünglichen DeepSeek-R1 und Qwen3-235B, insbesondere in komplexer Softwareentwicklung, Werkzeugnutzung und Aufgaben mit langem Kontext. Wir geben MiniMax-M1 öffentlich frei: https://github.com/MiniMax-AI/MiniMax-M1.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp