NVIDIA Blackwell steigert MoE-Inferezausführung um bis zu 2,8fach
NVIDIA hat mit dem Blackwell-Architektur- und Software-Stack erhebliche Leistungsfortschritte bei der Inferenz von Sparse Mixture-of-Experts-Modellen (MoE) erzielt, insbesondere für das 671 Milliarden Parameter starke DeepSeek-R1-Modell. Die neue Version von NVIDIA TensorRT-LLM treibt die Token-Durchsatzleistung pro GPU auf dem GB200 NVL72-Plattform – einem rackskalierbaren System mit 72 Blackwell-GPUs – um bis zu 2,8-fach in nur drei Monaten voran. Dieser Fortschritt basiert auf einer tiefen Co-Design-Optimierung von Hardware, Software, Netzwerk, Stromversorgung und Kühlung. Die fünfte Generation des NVLink-Interconnects und NVLink-Switch-Chips ermöglicht eine bidirektionale Bandbreite von 1.800 GB/s, was die effiziente Datenkommunikation zwischen den Experten in MoE-Modellen entscheidend beschleunigt. Zudem nutzt die Blackwell-Architektur die von NVIDIA entwickelte NVFP4-4-Bit-Fließkommazahlendarstellung, die Genauigkeit und Leistung besser balanciert als herkömmliche FP4-Formate. Technologien wie disgregierte Serving – bei der Prefill- und Decodieroperationen auf getrennten GPU-Gruppen laufen – profitieren direkt von dieser Architektur. Auf der HGX B200-Plattform, bestehend aus acht Blackwell-GPUs, steigert die Kombination aus Multi-Token-Prediction (MTP) und NVFP4 die Durchsatzleistung erheblich, auch in luftgekühlten Umgebungen. MTP erhöht den Durchsatz über den gesamten Interaktivitätsbereich, während NVFP4 die Rechenleistung der GPU effizienter nutzt, ohne an Genauigkeit zu verlieren. Die Kombination beider Technologien ermöglicht es, bei gleicher Hardware höhere Interaktivität zu erreichen oder denselben Interaktivitätslevel mit deutlich mehr Benutzern zu bedienen. Die Ergebnisse zeigen signifikante Verbesserungen in allen getesteten Sequenzlängen (1K/1K, 8K/1K, 1K/8K), wobei die Leistung bei NVFP4 mit MTP deutlich über FP8-Alternativen liegt. Die Fortschritte sind nicht nur hardwarebasiert, sondern resultieren aus kontinuierlichen Softwareoptimierungen. TensorRT-LLM bietet eine PyTorch-native, Python-orientierte API, die Entwicklern Flexibilität bei Experimenten und Erweiterungen bietet. Die Integration in den gesamten NVIDIA-Stack – inklusive TensorRT Model Optimizer – sorgt für konsistente Leistung und Genauigkeit. Dadurch wird die Effizienz der bestehenden GPU-Infrastruktur in Cloud-Anbietern, Modellentwicklern und Unternehmen erheblich gesteigert, was die Lebensdauer und Wertschöpfung bestehender Investitionen verlängert. Industrieanalysten betonen, dass diese Leistungssteigerungen die wirtschaftliche Tragfähigkeit von großen LLMs erheblich verbessern, insbesondere bei der Skalierung von inferenzbasierten Diensten. Die Fähigkeit, mehr Tokens pro Watt zu generieren, senkt die Kosten pro Million Tokens – ein entscheidender Faktor für Cloud- und Enterprise-Nutzer. NVIDIA positioniert sich damit weiter als führender Anbieter von End-to-End-Plattformen für KI-Inferenz, wobei die enge Verzahnung von Hardware und Software den Wettbewerbsvorteil nachhaltig stärkt. Die kontinuierliche Optimierung über Produktzyklen und Software-Updates unterstreicht die strategische Ausrichtung auf langfristige Effizienz und Leistung.
