HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat
vLLM
Agent
Anthropic

MiniMax M2.7 optimiert KI auf NVIDIA

MiniMax hat mit der Veröffentlichung von M2.7 eine signifikante Weiterentwicklung seines M2-Modellreihes vorgestellt, die speziell für skalierbare agentenbasierte Workflows auf NVIDIA-Plattformen optimiert ist. Das neue Modell, das als Open-Weight-Release über NVIDIA und das gesamte Ökosystem für Open-Source-Inferenz verfügbar ist, stellt ein Upgrade gegenüber der Vorgängerversion M2.5 dar. Es ist konzipiert, um komplexe Anwendungen in den Bereichen logisches Schlussfolgern, maschinelles Lernen, Softwareentwicklung, Ingenieurwesen und Bürotätigkeiten zu unterstützen. Die Architektur der M2-Serie basiert auf einem spärlichen Mix-of-Experts-Ansatz (MoE). Dieser ermöglicht es, die Leistungsfähigkeit eines Modells mit insgesamt 230 Milliarden Parametern zu erhalten, gleichzeitig aber die Inferenzkosten durch Aktivierung von lediglich 10 Milliarden Parametern pro Token zu senken. Mit einer Aktivierungsrate von 4,3 % werden von 256 verfügbaren Experten pro Token nur die acht relevantesten ausgewählt. Zusätzliche Technologien wie multi-Head Causal Self-Attention, Rotary Position Embeddings und Root Mean Square Normalization sorgen für ein stabiles Training im großen Maßstab. Die Modelle unterstützen einen Kontextfenster von bis zu 200.000 Token und sind besonders leistungsfähig bei Code-Herausforderungen und komplexen agentenbasierten Aufgaben. Um die Integration dieser Modelle zu vereinfachen, stellt NVIDIA mit NemoClaw eine Open-Source-Referenzplattform bereit. Diese Lösung ermöglicht es Entwicklern, über einen einzelnen Befehl dauerhafte, autonome Assistenten sicher zu betreiben. NemoClaw installiert die OpenShell-Laufzeitumgebung, die eine sichere Umgebung für autonome Agenten bietet, die mit offenen Modellen wie M2.7 kommunizieren. Entwickler können diesen Prozess über die NVIDIA Brev Cloud AI GPU-Plattform starten, um sofort mit der Bereitstellung zu beginnen. Für die maximale Leistungsfähigkeit hat NVIDIA in enger Zusammenarbeit mit der Open-Source-Community hochperformante Kernel in die Inferenz-Frameworks vLLM und SGLang integriert. Diese Optimierungen zielen spezifisch auf die architektonischen Anforderungen von großen MoE-Modellen ab. Tests auf NVIDIA Blackwell Ultra GPUs zeigen, dass diese Anpassungen innerhalb eines Monats zu einer Steigerung des Durchsatzes um bis zu 2,5-mal (vLLM) beziehungsweise 2,7-mal (SGLang) geführt haben. Dies verbessert signifikant das Verhältnis zwischen Effizienz und Interaktivität in Produktionssystemen. Die Bereitstellung von MiniMax M2.7 ist flexibel gestaltet. Entwickler können zunächst kostenlose, GPU-beschleunigte Endpunkte auf build.nvidia.com nutzen, um Prompts zu testen und die Leistung zu evaluieren. Für den produktiven Einsatz stehen NVIDIA NIM zur Verfügung, optimierte und containerisierte Inferenz-Mikrodienste, die sowohl lokal, in der Cloud als auch in hybriden Umgebungen eingesetzt werden können. Für Feinabstimmungen (Fine-Tuning) bietet das NVIDIA NeMo Framework mit der AutoModel-Bibliothek und speziellen Rezepten für M2.7 Unterstützung an, einschließlich Optionen für Reinforcement Learning mit verschiedenen Sequenzlängen. NVIDIA deckt mit diesen Lösungen den gesamten Lebenszyklus von der Datenzentrum-Infrastruktur auf Blackwell-Hardware über Enterprise-Mikrodienste bis hin zum Fine-Tuning ab. Interessierte können den Einstieg über die MiniMax M2.7-Seite auf Hugging Face oder die NVIDIA-Entwicklerplattform beginnen, um die Vorteile dieses fortschrittlichen Modells für ihre spezifischen Anwendungsfall zu nutzen.

Verwandte Links

MiniMax M2.7 optimiert KI auf NVIDIA | Aktuelle Beiträge | HyperAI