HyperAI

Die NVIDIA Blackwell Ultra GPU stellt den neuesten Meilenstein in der Evolution der Accelerated Computing-Architektur dar und ist zentral für den Aufbau von „AI Factories“ – skalierbaren, hochleistungsfähigen Infrastrukturen zur massenhaften Trainings- und Inferenzverarbeitung künstlicher Intelligenz. Mit einer Transistoranzahl von 208 Milliarden – 2,6-mal mehr als die Hopper-GPU – und einem dual-reticle-Design, das zwei Chips über die proprietäre NV-HBI-Verbindung (10 TB/s Bandbreite) integriert, funktioniert die Blackwell Ultra als ein einziger CUDA-kompatibler Beschleuniger. Dies ermöglicht eine nahtlose Skalierung ohne Änderung der bestehenden Software-Ökosysteme. Der Kern der Architektur sind 160 Streaming Multiprocessors (SMs), organisiert in acht Graphics Processing Clusters, die mit fünfter Generation Tensor Cores ausgestattet sind – insgesamt 640 pro GPU. Diese sind mit 256 KB Tensor Memory pro SM gekoppelt und unterstützen Dual-Thread-Block-MMA, was die Speicherbandbreite reduziert und die Durchsatzleistung bei großen Batch-Operationen steigert. Ein zentrales Innovationselement ist die Einführung von NVFP4, einem neuen 4-Bit-Float-Format, das durch zweistufige Skalierung (E4M3-Mikroblöcke + Tensor-FP32) eine nahezu FP8-Genauigkeit bei bis zu 8-fach geringerem Speicherbedarf erreicht. Dadurch steigt die NVFP4-Leistung auf 15 PetaFLOPS – eine 1,5-fache Steigerung gegenüber der Standard-Blackwell-GPU und 7,5-fache gegenüber Hopper. Besonders bedeutend ist die Beschleunigung der Softmax-Operation in Transformer-Attention-Layern: Durch Verdopplung der SFU-Leistung für exponentielle Berechnungen wird die Aufbereitung von langen Kontexten um bis zu 2x schneller. Dies ist entscheidend für Reasoning-Modelle mit großen Eingabefenstern, wo früher die Softmax-Berechnung eine Leistungsbremse war. Kombiniert mit NVFP4 führt dies zu einer sprunghaften Verbesserung der Inferenzleistung für große Sprach- und Multimodalmodelle. Die Speicherkapazität wurde auf 288 GB HBM3E pro GPU erhöht – 3,6-mal mehr als bei H100 – und ermöglicht das Hosting von Trillion-Parameter-Modellen ohne KV-Cache-Offloading. Die Bandbreite bleibt bei 8 TB/s, während die NVLink 5-Interconnect-Technologie (1,8 TB/s bidirektional) und PCIe Gen 6 (256 GB/s) eine extrem hohe Skalierbarkeit in Rack- und Systemarchitekturen gewährleisten. Die Blackwell Ultra ist Bestandteil des NVIDIA Grace Blackwell Ultra Superchips, der eine CPU mit zwei GPUs über NVLink-C2C verbindet und bis zu 40 PetaFLOPS Sparse-NVFP4-Leistung mit 1 TB gemeinsamem Speicher bietet. Mit ConnectX-8 SuperNICs erreicht das System 800 GB/s Netzwerkbandbreite. Die volle CUDA-Kompatibilität sichert die Einbindung in bestehende Entwicklungs- und Betriebsumgebungen. Bewertung und Marktimpakt: Industrieexperten sehen in der Blackwell Ultra eine Schlüsseltechnologie für die industrielle Etablierung von AI Factories. „Mit dieser GPU erreicht NVIDIA nicht nur neue Leistungsgrenzen, sondern schafft auch die wirtschaftliche Grundlage für massenhafte, kosteneffiziente Inferenz“, sagt ein Analyst von Gartner. Die Kombination aus NVFP4, Speicherkapazität und interner Skalierbarkeit macht die Blackwell Ultra zur bevorzugten Wahl für Cloud-Anbieter wie Microsoft Azure, Amazon Web Services und Google Cloud, die ihre AI-Infrastrukturen für LLM- und Multimodal-Workloads modernisieren. Die Plattform wird zudem in der Forschung und Industrie für Anwendungen in autonomen Systemen, medizinischer Bildanalyse und industrieller KI genutzt. NVIDIA positioniert sich mit dieser Generation klar als dominierender Player im Hochleistungs-Computing-Markt, wobei die Architektur sowohl die technische als auch die wirtschaftliche Skalierung von KI entscheidend voranbringt.

NVIDIA Blackwell Ultra: Chip für die nächste Ära der KI-Fabriken

Related Links