NVIDIA Blackwell dominiert MLPerf Training 6.0
NVIDIA hat sich in der aktuellen Version MLPerf Training v6.0 durch einen vollständigen Sieg in allen Kategorien als Maßstab für KI-Trainingsinfrastruktur etabliert. Als einziges Unternehmen reichte der Technologiekonzern Einreichungen in allen Disziplinen ein und erzielte dabei die schnellste Trainingszeit sowie die höchste Effizienz pro Beschleuniger. Die Ergebnisse belegen die dominierende Leistungsfähigkeit der Blackwell-Plattform, insbesondere der Systemarchitekturen GB200 und GB300 NVL72, bei der Bewältigung immer komplexerer Modellarchitekturen. Im Fokus der neuen Benchmark-Runde standen zwei neue Mixture-of-Experts-Pretraining-Workloads: DeepSeek-V3 mit 671 Milliarden Parametern und GPT-OSS-20B. Die GB300-NVL72-Racks stellten mit ihrer Architektur aus 72 Blackwell-Ultra-GPUs und 36 Grace-CPUs einen neuen Performance-Maßstab auf. Gegenüber der Vorgängergeneration GB200 NVL72 erzielt das System einen Geschwindigkeitszuwachs von bis zu 1,6-fach, was primär auf höhere Rechenleistungsdichte, NVFP4-Präzision, erweiterte Speicherkapazitäten und ein gesteigertes Strombudget zurückzuführen ist. NVIDIA demonstrierte damit die Fähigkeit zur skalierbaren Verarbeitung extremer Workloads und führte die größten Blackwell-basierten Cluster-Tests in der Benchmark-Historie durch. Auf Basis von 8.192 GPUs wurde DeepSeek-V3 in unter zwei Minuten trainiert. Die Leistungsexplosion basiert auf einer tiefgreifenden Software-Hardware-Co-Design-Strategie. Für token-dropless-MoE-Architekturen setzte NVIDIA erstmals vollständige CUDA-Graphen ein, was CPU-GPU-Synchronisationen eliminiert und die Last vollständig auf die Beschleuniger verlagert. Durch CuTe-DSL-Kernel-Fusionen sowie MXFP8-Technologien für den Attention-Block und die Logit-Projektion wurden Datenpfade optimiert und Rechenzyklen minimiert. Optimierungen im Router-Design, die Anpassung des Hybrid-Expert-Parallelismus sowie ein verbessertes 1F1B-Overlap-Schema verschleierten Kommunikationslatenzen vollständig hinter der Rechenzeit. Die Ausbalancierung der Pipeline-Parallelität reduzierte Ineffizienzen auf unter ein Prozent. Die Netzwerk- und Zuverlässigkeitsarchitektur bildet das Rückgrat dieser Skalierung. Fünfte Generation NVLink Switches vernetzen die GPUs zu einer logischen Einheit. Für Cluster über 8.192 Knoten kommen NVIDIA Quantum InfiniBand und Spectrum-X Ethernet zum Einsatz, wobei adaptives Routing und integriertes Stau-Management die Bandauslastung optimieren. Resilienz-Features wie der Reliability, Availability and Serviceability Engine sowie NVRx minimieren Ausfallzeiten durch automatisches Fault-Routing und inkrementelle Checkpoint-Wiederherstellung. Das Ökosystem zeigt bereits operative Reife. Partner wie CoreWeave, Midjourney, Google Cloud und Nebius betreiben Blackwell-Infrastrukturen in Produktivumgebungen und berichten von deutlichen Trainingsbeschleunigungen bei agentic AI, Bildgenerierung und Reinforcement-Learning. Die konsequente Integration von Megatron Bridge, cuDNN und Transformer Engine in die NeMo-Container ermöglichte innerhalb von drei Monaten einen Durchsatzanstieg von über dreißig Prozent ohne Hardware-Änderungen. Mit MLPerf Training v6.0 bestätigt NVIDIA, dass die Kombination aus massiver Parallelarchitektur, präziser Präzisionssteuerung und nahtloser Software-Integration den industriellen Standard für frontier-KI definiert. Die Fähigkeit, Training-Zyklen von Monaten auf Minuten zu komprimieren, beschleunigt die Marktreife nächster KI-Generationen und etabliert die Blackwell-Plattform als unverzichtbare Grundlage für kommerzielle und Forschungsinfrastrukturen weltweit.
