NVIDIA Blackwell setzt neuen Standard in Inference-Leistung und Effizienz
Die Einführung der unabhängigen InferenceMAX v1-Benchmarks von SemiAnalysis markiert einen Meilenstein bei der Bewertung von KI-Inferenzleistung in Echtzeitszenarien. Erstmals werden nicht nur Geschwindigkeit, sondern auch Gesamtkosten, Energieeffizienz und Wirtschaftlichkeit über verschiedene Anwendungsfälle hinweg erfasst. Die Ergebnisse zeigen eindeutig: Die NVIDIA Blackwell-Plattform dominiert in allen Kategorien – mit herausragender Leistung und bester Effizienz für KI-Fabriken. Ein Investitionsvolumen von 5 Millionen US-Dollar in ein NVIDIA GB200 NVL72-System kann laut Angaben bis zu 75 Millionen US-Dollar an Token-Umsatz generieren – ein 15-facher ROI. Dies unterstreicht die neue Wirtschaftlichkeit der KI-Inferenz, die heute mehr als nur schnelle Antworten liefert, sondern kontinuierliche, kosteneffiziente Intelligenzproduktion ermöglicht. InferenceMAX v1 testet gängige Modelle wie gpt-oss-120b, Llama 3.3 70B und DeepSeek-R1 unter realistischen Bedingungen – mit variablen Sequenzlängen, unterschiedlichen Präzisionen (FP8, NVFP4) und sowohl Single- als auch Multi-Node-Konfigurationen. Dabei wird die Leistung über die gesamte Pareto-Front bewertet, also die optimale Balance zwischen Durchsatz, Latenz, Energieverbrauch und Interaktivität. NVIDIA Blackwell erreicht hier eine 15-fache Steigerung gegenüber der Hopper-Generation. Besonders beeindruckend ist die Leistung bei dichten Modellen wie Llama 3.3 70B: Mit über 10.000 TPS pro GPU bei 50 TPS/User erreicht Blackwell eine vierfach höhere Durchsatzleistung als der H200. Die Schlüssel zu diesem Erfolg liegen in der extremen Hardware-Software-Codesign. Die B200-Architektur nutzt fünfte Generation Tensor-Cores mit native FP4-Unterstützung, HBM3e-Speicher und eine 1.800 GB/s starke NVLink-Switch-Verbindung. Diese Infrastruktur ermöglicht hohe Konkurrenz und effiziente Kommunikation zwischen GPUs – entscheidend für MoE-Modelle wie DeepSeek-R1. Durch die Kombination aus GB200 NVL72, dem Dynamo-Inferenzframework und TensorRT-LLM wird die Leistung von MoE-Modellen massiv gesteigert. Disaggregierte Inferenz trennt Prefill und Decode, wodurch beide Phasen unabhängig optimiert werden können. TensorRT-LLM verhindert zudem GPU-Unterutilisierung durch intelligente Expertenverteilung. Zusätzlich wurden durch die Zusammenarbeit mit Open-Source-Communities wie SGLang, vLLM und FlashInfer neue Kernels für Attention, GEMM und MoE entwickelt. Software-Updates wie spekulative Decoding im gpt-oss-120b-Eagle3-v2-Modell verdreifachen die Durchsatzleistung auf 30.000 Tokens pro Sekunde pro GPU. Die Kosten pro Million Tokens sanken innerhalb von zwei Monaten um das Fünffache – von 0,11 auf 0,02 US-Dollar bei 100 TPS/User. Selbst bei extrem hoher Interaktivität von 400 TPS/User bleiben die Kosten mit 0,12 US-Dollar pro Million Tokens akzeptabel. Die kontinuierliche Automatisierung der Benchmarks durch CI-Systeme und die Open-Source-Verfügbarkeit der Testkonfigurationen ermöglichen Transparenz und Reproduzierbarkeit. NVIDIA setzt mit seinem Think SMART-Framework auf eine ganzheitliche Plattform, die Performance in Profit umwandelt. Die Ergebnisse von InferenceMAX v1 bestätigen: NVIDIA Blackwell ist nicht nur technologisch führend, sondern auch wirtschaftlich überlegen – der neue Standard für skalierbare, kosteneffiziente KI-Infrastruktur.
