HyperAI
Back to Headlines

MiniMax-M1: Neues Sprachmodell mithybrider Aufmerksamkeitseinheit präsentiert

vor 8 Stunden

GitHub - MiniMax-AI/MiniMax-M1: MiniMax-M1, das erste offene Modell mit Misch-Aufmerksamkeitsarchitektur und großem Umfang. Modellübersicht Wir stellen MiniMax-M1 vor, das weltweit erste große Modell mit offenen Gewichten und einer Hybrid-Misch-Aufmerksamkeitsarchitektur. MiniMax-M1 basiert auf unserer vorherigen MiniMax-Text-01, die insgesamt 456 Milliarden Parameter aufweist, wobei 45,9 Milliarden Parameter pro Token aktiviert werden. Wie bei MiniMax-Text-01 unterstützt M1 nativ eine Kontextlänge von 1 Million Tokens, was achtmal so viel ist wie bei DeepSeek R1. Zudem ermöglicht der Blitz-Aufmerksamkeitsmechanismus in MiniMax-M1 eine effiziente Skalierung der Testzeitausführungen. Zum Beispiel verbraucht M1 bei einer Generierungslänge von 100.000 Tokens nur 25% der FLOPs im Vergleich zu DeepSeek R1. Diese Eigenschaften machen M1 besonders geeignet für komplexe Aufgaben, die langfristige Eingabeverarbeitung und umfangreiche Denkarbeit erfordern. MiniMax-M1 wird mit groß angelegtem Reinforcement Learning (RL) auf verschiedenen Problemen trainiert, von traditioneller mathematischer Logik bis hin zu realen Softwareentwicklungsumgebungen. Wir haben einen effizienten RL-Skalierungsrahmen für M1 entwickelt, der zwei Hauptaspekte hervorhebt: (1) den CISPO-Algorithmus, der Stichprobenwichtigkeiten kürzt anstelle von Tokenaktualisierungen und bessere Ergebnisse als andere Wettbewerber liefert; (2) unsere Hybrid-Aufmerksamkeitsarchitektur, die die Effizienz des RL verbessert, indem sie spezielle Herausforderungen bei der Skalierung mit der Hybridstruktur adressiert. Wir haben zwei Versionen von MiniMax-M1-Modellen trainiert, mit 40.000 und 80.000 Denkaufwandseinschränkungen. Experimente auf Standardbenchmarks zeigen, dass unsere Modelle andere starke offene Modelle wie DeepSeek-R1 und Qwen3-235B deutlich übertreffen, insbesondere in komplexen Softwareentwicklungs-, Werkzeugnutzungs- und langfristigen Kontextaufgaben. Die effiziente Skalierung der Testzeitausführungen macht MiniMax-M1 zu einem starken Fundament für die nächste Generation von Sprachmodell-Agenten, die logische Schlussfolgerungen ziehen und reale Herausforderungen angehen können. Bewertung Leistung von MiniMax-M1 auf Kernbenchmarks. Kategorie: Mathematik - AIME 2024: MiniMax-M1-80K erreicht 86,0%, während DeepSeek-R1 91,4% erreicht. - AIME 2025: MiniMax-M1-80K erreicht 76,9%, während DeepSeek-R1 87,5% erreicht. - MATH-500: MiniMax-M1-80K erreicht 96,8%, während DeepSeek-R1 98,0% erreicht. Kategorie: Allgemeines Codieren - LiveCodeBench (24/8~25/5): MiniMax-M1-80K erreicht 65,0%, während DeepSeek-R1 73,1% erreicht. - FullStackBench: MiniMax-M1-80K erreicht 68,3%, während DeepSeek-R1 69,4% erreicht. Kategorie: Schlussfolgerung und Wissen - GPQA Diamond: MiniMax-M1-80K erreicht 70,0%, während DeepSeek-R1 81,0% erreicht. - HLE (ohne Werkzeuge): MiniMax-M1-80K erreicht 8,4%, während DeepSeek-R1 17,7% erreicht. - ZebraLogic: MiniMax-M1-80K erreicht 86,8%, während DeepSeek-R1 95,1% erreicht. - MMLU-Pro: MiniMax-M1-80K erreicht 81,1%, während DeepSeek-R1 85,0% erreicht. Kategorie: Softwareentwicklung - SWE-bench Verified: MiniMax-M1-80K erreicht 56,0%, während DeepSeek-R1 57,6% erreicht. Kategorie: Langer Kontext - OpenAI-MRCR (128k): MiniMax-M1-80K erreicht 73,4%, während DeepSeek-R1 51,5% erreicht. - OpenAI-MRCR (1M): MiniMax-M1-80K erreicht 56,2%, während DeepSeek-R1 keine Werte hat. - LongBench-v2: MiniMax-M1-80K erreicht 61,5%, während DeepSeek-R1 52,1% erreicht. Kategorie: Agentisches Werkzeugnutzen - TAU-bench (Fluggesellschaft): MiniMax-M1-80K erreicht 62,0%, während DeepSeek-R1 53,5% erreicht. - TAU-bench (Einzelhandel): MiniMax-M1-80K erreicht 63,5%, während DeepSeek-R1 keine Werte hat. Kategorie: Faktualität - SimpleQA: MiniMax-M1-80K erreicht 18,5%, während DeepSeek-R1 27,8% erreicht. Kategorie: Allgemeiner Assistent - MultiChallenge: MiniMax-M1-80K erreicht 44,7%, während DeepSeek-R1 45,0% erreicht. Bereitstellungshinweise Laden Sie das Modell vom HuggingFace-Repository herunter. Für die Produktionsbereitstellung empfehlen wir die Verwendung von vLLM, da es hervorragende Leistung bei der Bereitstellung großer Sprachmodelle bietet. vLLM verfügt über folgende Merkmale: - Hochskalierbare Infrastruktur - Effiziente parallele Ausführung - Optimierte Speicherverwaltung Für detaillierte Anweisungen zur Bereitstellung mit vLLM, beziehen Sie sich bitte auf unsere vLLM-Bereitstellungsanleitung. Alternativ können Sie das Modell auch direkt mit Transformers bereitstellen. Detaillierte Anweisungen hierfür finden Sie in unserer MiniMax-M1-Transformers-Bereitstellungsanleitung. Funktionsaufrufe Das MiniMax-M1-Modell unterstützt Funktionsaufrufe, was es ermöglicht, externe Funktionen zu identifizieren und deren Aufrufparameter in strukturierter Form auszugeben. Die MiniMax-M1-Funktionsaufrufs-Anleitung bietet detaillierte Informationen zum Einsatz dieser Funktion. Chatbot & API Für allgemeine Verwendung und Bewertung stellen wir einen Chatbot mit Online-Suchfunktionen sowie eine Online-API für Entwickler zur Verfügung. Der MiniMax MCP Server bietet zudem Video-Generierung, Bild-Generierung, Sprachsynthese und Sprachkloning für Entwickler. Kontakt Kontaktieren Sie uns unter model@minimax.io. Expertenbewertung MiniMax-M1 hat erhebliche Fortschritte in der Entwicklung von großen Sprachmodellen mit offenen Gewichten gemacht. Die Kombination aus Hybrid-Misch-Aufmerksamkeitsarchitektur und Blitz-Aufmerksamkeitsmechanismus ermöglicht eine effiziente Skalierung und erweitert die Anwendbarkeit auf komplexe Aufgaben. Obwohl das Modell in einigen Kategorien noch nicht die Spitzenleistungen anderer Modelle erreicht, zeigt es ein großes Potenzial, insbesondere bei der Verarbeitung langer Kontexte und der Nutzung von Werkzeugen. Die Bereitstellungsoptionen und die Unterstützung von Funktionsaufrufen machen MiniMax-M1 zu einem vielseitigen und leistungsfähigen Werkzeug für die Zukunft der Sprachmodelle.

Related Links