MiniMax M3: NVIDIA-Einsatz
MiniMax hat das Multimodalmodell M3 für die NVIDIA-beschleunigte Infrastruktur freigegeben, welche den Blackwell-Rechner umfasst. Die Integration adressiert die aktuelle Herausforderung in der Unternehmens-KI, bei der Entwickler häufig isolierte Pipelines für Text, Bild und Code manuell verknüpfen müssen. M3 bündelt diese Funktionen in einem einzigen System, das langkontextbasiertes reasoning, agentic workflows und kreative Aufgaben unterstützt. Das 428 Milliarden Parameter große MoE-Modell mit 22 Milliarden aktiven Parametern verarbeitet bis zu eine Million Token und unterstützt native Eingaben für Video, Bild und Text. Die Kerninnovation liegt im MiniMax Sparse Attention. Dieser Mechanismus ersetzt den herkömmlichen quadratischen Aufmerksamkeitsschleife durch eine Präfilterung relevanter Kontextblöcke und ermöglicht einen kontiguen Speicherzugriff. Dadurch steigern sich die Geschwindigkeiten im Vergleich zu bestehenden Implementierungen um mehr als das Vierfache. Bei einem Kontext von einer Million Token sinkt der Compute-Bedarf pro Token auf ein Zwanzigstel des Vorgängers M2, während die Prefill-Leistung um das Neunfache und die Decoding-Geschwindigkeit um das Fünfzehnfache ansteigen. Das Modell wurde von Grund auf neu mit etwa hundert Billionen verschachtelten Token trainiert, wodurch multimodale Fähigkeiten ohne verlustbehaftetes Nachtrainierung integriert sind. Für die Produktion bietet NVIDIA mehrere optimierte Deployment-Pfade. Entwickler können auf quelloffene Inferenz-Engines wie TensorRT LLM, SGLang oder vLLM zurückgreifen. Die Integration von NVIDIA Dynamo, einer offenen Plattform für verteilte Inferenz, ermöglicht durch disaggregiertes Serving eine vierfache Verbesserung der Interaktivität auf Blackwell-Hardware. Dabei werden Prefill- und Decode-Phasen auf separaten GPUs aufgeteilt, um die Systemeffizienz zu maximieren, ohne den GPU-Budget zu erhöhen. Das NeMo Framework unterstützt zusätzlich die Anpassung und das Fine-Tuning für spezifische Geschäftsprozesse. Die Verfügbarkeit vereinfacht Enterprise-Architekturen erheblich, reduziert Komplexität und Betriebskosten sowie Iterationszyklen. Anwendungen wie langfristiges Video-Verständnis, ausgedehnte Programmier-Sessions oder hohe Design-Workflows lassen sich nun mit einer unified Pipeline betreiben. Das Modell ist über die GPU-beschleunigte API auf build.nvidia.com zum Prototyping verfügbar, während die Modellgewichte über Hugging Face für lokale oder cloudbasierte Infrastrukturen heruntergeladen werden können.
