HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA und Mistral AI kooperieren bei leistungsstarken Open-Source-Modellen

Mistral AI hat die neue Mistral 3-Modellfamilie für offene Quelle vorgestellt, die branchenführende Genauigkeit, Effizienz und Anpassungsfähigkeit für Entwickler und Unternehmen bietet. Die Modelle sind auf NVIDIA-Plattformen von Supercomputern bis hin zu Edge-Geräten optimiert und basieren auf der Hopper-Architektur, wobei sie auf NVIDIA GB200 NVL72-Systemen trainiert wurden. Die Familie umfasst das große Mixture-of-Experts-Modell Mistral Large 3 mit 675 Milliarden Parametern, davon 41 Milliarden aktive Parameter, sowie die kleineren, dichten Ministral-3-Modelle in den Größen 3B, 8B und 14B. Alle Modelle verfügen über einen kontextuellen Fenster von 256K und sind in mehreren Varianten – Base, Instruct und Reasoning – verfügbar. Mistral Large 3 nutzt die MoE-Architektur, bei der nur die relevanten Teile des Modells für jedes Eingabewort aktiviert werden, was Ressourcen spart und die Skalierbarkeit erhöht. Auf dem NVIDIA GB200 NVL72 erreicht es eine Leistung von über 5 Millionen Tokens pro Sekunde pro Megawatt bei 40 Tokens pro Sekunde pro Benutzer – eine zehnfache Steigerung gegenüber der Vorgängergeneration H200. Dies wird durch eine umfassende Optimierungsstapel erreicht: NVIDIA TensorRT-LLM mit Wide Expert Parallelism (Wide-EP) für effiziente Expertenverteilung, NVFP4-Quantisierung für niedrigen Rechenaufwand und geringe Genauigkeitsverluste, sowie NVIDIA Dynamo für dezentrale, latenzarme Inferenz, die die Vorkalkulation (prefill) und die Decodierung (decode) getrennt und effizient ausführt. Die NVFP4-Quantisierung, die mit dem Open-Source-Tool llm-compressor durchgeführt wurde, speichert nur die MoE-Gewichte in reduzierter Genauigkeit, während der Rest im ursprünglichen Format bleibt. Da NVFP4 native für die Blackwell-Architektur ist, wird die Leistung auf GB200 NVL72 nahtlos ausgenutzt. Die Modelle sind mit mehreren Open-Source-Frameworks kompatibel: vLLM, SGLang, TensorRT-LLM, Llama.cpp und Ollama. Entwickler können die Modelle mit vLLM, SGLang oder Ollama auf RTX-GPUs, DGX Spark, Jetson-Plattformen und anderen NVIDIA-Hardware-Systemen einsetzen. Auf dem RTX 5090 erreicht das Ministral-3B-Modell bis zu 385 Tokens pro Sekunde, auf Jetson Thor mit 8 Konkurrenzen bis zu 273 Tokens pro Sekunde. Zudem werden die Modelle ab 2. Dezember über Hugging Face und die NVIDIA NIM-Mikroservices (in Kürze verfügbar) für eine produktionsreife Bereitstellung bereitgestellt. Entwickler können die Modelle direkt über build.nvidia.com/mistralai testen, ohne vorherige Installation. Die Integration mit NVIDIA NeMo-Tools wie Data Designer, Customizer, Guardrails und NeMo Agent Toolkit ermöglicht eine schnelle Umsetzung von Prototypen in produktive Anwendungen. Die Mistral 3-Familie markiert einen Meilenstein in der offenen KI-Entwicklung, indem sie Forschungsergebnisse mit praktischen Anwendungen verbindet. Sie schafft die Grundlage für „verteilte Intelligenz“ – KI, die nahtlos von der Cloud über Rechenzentren bis hin zu Edge-Geräten reicht. Mit der Kombination aus innovativer Architektur, Hardware-Optimierung und offener Zugänglichkeit treibt die Mistral 3-Familie die Weiterentwicklung von KI-Systemen voran und macht leistungsstarke, effiziente und anpassbare KI für Entwickler weltweit zugänglich.

Verwandte Links

NVIDIA und Mistral AI kooperieren bei leistungsstarken Open-Source-Modellen | Aktuelle Beiträge | HyperAI