MiniMax M2.5: Leistungsstark und nur 1 Dollar pro Stunde
Am 12. Februar 2026 stellte das shanghaier Unternehmen MiniMax mit M2.5 einen neuen Frontier-Modell-Prototyp vor, der nur wenige Wochen nach der Börseneinführung in Hongkong vorgestellt wurde. M2.5 erreicht mit 80,2 % auf SWE-Bench Verified und 51,3 % auf Multi-SWE-Bench (Platz 1) Spitzenwerte, die nahe an den Leistungen von Claude Opus 4.6 liegen und GPT-5.2 in mehreren agentenbasierten Benchmarks übertrumpfen. Besonders auffällig ist die Effizienz: Der Modellbetrieb kostet nur etwa 1 Dollar pro Stunde bei 100 Tokens pro Sekunde. M2.5 basiert auf einer Mixture-of-Experts-Architektur mit insgesamt 230 Milliarden Parametern, wobei nur 10 Milliarden aktiv sind – ein entscheidender Vorteil für die Skalierbarkeit. Die Infrastruktur ist für die Durchführung komplexer Arbeitsabläufe ausgelegt, einschließlich der Steuerung von Office-Anwendungen wie Word, Excel und PowerPoint. Zwei API-Varianten sind verfügbar: die „Lightning“-Version, die doppelt so hohe Durchsatzraten wie andere Frontier-Modelle erreicht, und die Standardversion, die extrem kostengünstig ist. Im Vergleich zu Claude Opus 4.6 (5 $/M Input, 25 $/M Output) oder dem neu veröffentlichten GLM-5 (1 $/M Input, 3,20 $/M Output) bietet M2.5 eine signifikante Preis-Leistungs-Verbesserung. Obwohl die Gewichte laut MiniMax „vollständig offen“ auf Hugging Face sein sollen, sind sie bislang noch nicht zugänglich. Für lokale Nutzung wird vLLM oder SGLang empfohlen – eine sinnvolle Option bei nur 10 Milliarden aktiven Parametern. Die Benchmarks zeigen besondere Stärken: M2.5 führt bei Multi-SWE-Bench mit 51,3 %, übertrifft damit Opus 4.6 (50,3 %), und erzielt 76,8 % bei multi-turn Function Calling – ein Plus von über 13 Prozentpunkten gegenüber dem Konkurrenten. In der OpenHands-Index-Rangliste belegt M2.5 den vierten Platz hinter Opus 4.6, Opus 4.5 und GPT-5.2 Codex. Insbesondere bei komplexen, langfristigen Aufgaben wie der Entwicklung von Apps von Grund auf zeigt das Modell starke Leistungen, wie Graham Neubig hervorhob. Technisch basiert M2.5 auf dem in-house entwickelten Reinforcement-Learning-Framework „Forge“, einem agenten-orientierten Ansatz, der die Trainings- und Inferenzengine von der Agenten-Scaffolding-Infrastruktur entkoppelt. Dies ermöglicht eine generalisierbare Lernfähigkeit über verschiedene Tools hinweg. Die Skalierung wurde durch drei Innovationen ermöglicht: CISPO (Clipped Importance Sampling Policy Optimization), eine verbesserte RL-Formulierung, die alle Tokens zur Gradientenberechnung nutzt und eine bis zu 2-fache Geschwindigkeit gegenüber DAPO erreicht; asynchrone Planung mit baumstrukturierter Stichprobensammelung, die die GPU-Auslastung erhöht und die Trainingsgeschwindigkeit um das 40-fache steigert; sowie Prozess-basierte Belohnungen zur besseren Credit Assignment bei langen Ablaufketten, die auch die tatsächliche Lösungszeit als Reward signalisieren. Die gesamte RL-Trainingsphase für M2.5 dauerte etwa zwei Monate – eine beeindruckende Effizienz, besonders im Vergleich zu M1, das auf 512 H800s in drei Wochen bei einer Kosten von 534.700 Dollar trainiert wurde. M2.5 zeigt zudem emergente Planungsverhalten: Es schreibt vor der Codeerstellung spezifische Anforderungen, was die Token-Effizienz erhöht (3,52 Mio. Tokens pro Task gegenüber 3,72 Mio. bei M2.1). Zudem hat MiniMax eine interne Benchmark (GDPval-MM) für Office-Aufgaben entwickelt, bei der M2.5 eine 59,0 %ige Gewinnquote erzielte. Mit über 10.000 selbst erstellten „Experten“ im MiniMax Agent-Ökosystem zeigt das Unternehmen eine starke Fokussierung auf agente-basierte Produktivität. Bewertung & Ausblick: Industrieexperten sehen in M2.5 eine bedeutende Innovation in Bezug auf Kosten- und Effizienzoptimierung, auch wenn die Konsistenz für Produktivumgebungen noch nicht vollständig gewährleistet ist – erste Berichte aus OpenHands nennen gelegentliche Fehler wie falsche Branch-Pushes oder Formatierungsverstöße. Dennoch stellt M2.5 einen klaren Weg zur nächsten Generation von agierten Modellen dar. Die Kombination aus skalierbarem RL, offener Architektur und Fokus auf Office-Aufgaben könnte MiniMax einen Wettbewerbsvorteil in der agierten Produktivität verschaffen. Die geplante detaillierte Veröffentlichung zu Forge und den Skalierungsgesetzen wird entscheidend sein, um zu klären, ob die Fortschritte durch Konkurrenzdruck oder echte Innovation entstehen. MiniMax positioniert sich damit als ernstzunehmender Akteur im globalen Frontier-Modell-Wettlauf.
