Nvidias Vera Rubin: Neues AI- und HPC-Plattform-Revolution mit 144 GPUs und 3,6 ExaFLOPS
Nvidia präsentiert mit der Vera-Rubin-Plattform eine der komplexesten und leistungsstärksten Architekturen für künstliche Intelligenz und High-Performance-Computing (HPC) bislang. Geplant für den Markteinstieg Ende 2025, kombiniert die Plattform neun spezialisierte Prozessoren in einer rack-skalierten Infrastruktur, die auf maximale Effizienz, Skalierbarkeit und Leistung abgestimmt ist. Zentrale Komponenten sind der 88-Core-Vera-CPU, der Rubin-GPU mit 288 GB HBM4, der Rubin-CPX-GPU für kontextbasierte Inferenz, der BlueField-4-DPU, sowie fortschrittliche Netzwerksilizien wie NVLink 6.0, Spectrum-X-Photonics-Ethernet und Quantum-CX9-InfiniBand. Ein vollständiger NVL144-Rack integriert 144 Rubin-GPUs (in 72 Paketen), 36 Vera-CPU, 20.736 TB HBM4-Speicher und erreicht bis zu 3,6 NVFP4-ExaFLOPS für Inferenz und 1,2 FP8-ExaFLOPS für Training. Die CPX-Variante steigert die Inferenzleistung auf fast 8 NVFP4-ExaFLOPS durch spezialisierte, energieeffiziente Beschleuniger. Die Plattform ist speziell für FP4/FP6-Präzision, millionstellige Kontexte und multimodale generative Workloads optimiert. Software-Elemente wie Dynamo-Inferenz-Orchestrator, Smart Router und GPU Planner sorgen für dynamische Lastverteilung, insbesondere bei Mixture-of-Experts-Modellen. Die NIXL-Interconnect-Erweiterung ermöglicht null-Kopie-Datenübertragungen zwischen GPUs und NICs via InfiniBand GPUDirect Async, reduziert Latenz und CPU-Last. Zudem steigert die neue NCCL 2.24-Bibliothek die Skalierbarkeit von Trillion-Parameter-Modellen um Faktor 4 bei kleinen Nachrichten. Der Vera-CPU, basierend auf Armv9.2-Kernen („Olympus“), bietet 176 Threads via 2-Wege-SMT, 1,2 TB/s Speicherbandbreite – 20 % mehr als der Vorgänger Grace – und nutzt NVLink-C2C mit 1,8 TB/s bidirektionaler Bandbreite. Die Architektur ist multichiplet-basiert, mit sichtbaren Trennlinien und einem separaten I/O-Chiplet, wobei die genauen Spezifikationen wie Taktrate, Cache-Topologie oder TDP noch unklar sind. Der Rubin-GPU (R200) setzt auf zwei 3-nm-Compute-Tiles, 288 GB HBM4 (13 TB/s Bandbreite) und erreicht 50 FP4-PetaFLOPS und ~16 FP8-PetaFLOPS – 3,3- bzw. 1,6-fach mehr als Blackwell Ultra. Der Energieverbrauch liegt bei ca. 1,8 kW pro GPU, was die Kühlung anspruchsvoll macht, aber durch die Leistungssteigerung gerechtfertigt ist. Die Rubin-CPX-GPU, mit 128 GB GDDR7, spezialisiert auf langen Eingabekontext und multimodale Eingaben, verbraucht weniger Energie und ist kostengünstiger, wodurch die Gesamteffizienz im inferenzbasierten Betrieb steigt. Der BlueField-4-DPU mit 64-Core-Grace-CPU und 800 Gb/s-Netzwerk-Interface entlastet die CPU von Netzwerk-, Speicher- und Sicherheitsaufgaben. Die Skalierbarkeit wird durch NVLink 6.0 (3,6 TB/s pro Link) und NVSwitch 6.0 (28,8 TB/s Gesamtbreite) gestärkt, wobei die Rubin-ULTRA-Generation 2027 mit vier Compute-Tiles, 1 TB HBM4E und 3,6 kW Leistung kommen wird – erfordert aber eine neue Kühlarchitektur (Kyber-Rack). Für die Skalierung über Racks hinaus setzt Nvidia auf Co-Packaged Optics (CPO): Spectrum-X-Photonics-Ethernet und Quantum-CX9-InfiniBand mit bis zu 1,6 Tb/s pro Port, 14,4 TFLOPS Rechenleistung und flüssigkeitsgekühlten Schaltern. Der ConnectX-9-SuperNIC mit PCIe 6.0 und GPUDirect Async ermöglicht null-Kopie-Übertragungen und ist zentral für die Vernetzung von mehreren NVL144-Systemen in Multi-Rack-Clustern. Bewertung & Hintergrund: Industrieexperten sehen in Vera Rubin eine Meilensteinschritt in der Skalierung von KI-Infrastruktur. Die Kombination aus spezialisierten Beschleunigern, fortschrittlicher Interconnect-Technologie und softwaregestützter Orchestrierung markiert eine Verschiebung hin zu „disaggregated“-Architekturen. Die hohe Komplexität und Energieanforderung stellen aber erhebliche Herausforderungen für Rechenzentren. Nvidia positioniert sich mit der Plattform als dominierender Anbieter für die nächste Generation der KI-Infrastruktur, wobei die Zusammenarbeit mit TSMC, HPE, Dell und Microsoft (Azure) die Marktdurchdringung sichert. Die Vera-Rubin-Plattform ist nicht nur ein technologischer Meilenstein, sondern auch ein strategischer Schritt, um die Kontrolle über die gesamte KI-Stack-Ökologie zu behaupten.
