HyperAIHyperAI

Command Palette

Search for a command to run...

Microsoft stellt weltweit ersten NVIDIA-GB300-Cluster für OpenAI vor

Microsoft hat mit der Einführung der neuen NDv6 GB300 VM-Serie eine bahnbrechende Leistung in der KI-Infrastruktur vorgestellt. Diese Systeme bilden die weltweit erste produktionsreife Supercomputer-Cluster-Plattform auf Basis der NVIDIA GB300 NVL72-Architektur und sind speziell für die anspruchsvollsten KI-Inferenzarbeiten von OpenAI optimiert. Der Clou: Der Cluster besteht aus über 4.600 NVIDIA Blackwell Ultra GPUs, die über die hochleistungsfähige NVIDIA Quantum-X800 InfiniBand-Netzwerktechnologie miteinander verbunden sind. Diese Verbindung ermöglicht eine Bandbreite von 800 Gb/s pro GPU und sorgt für nahtlose Kommunikation in einem System, das mehr als 37 Terabyte schnellen Speicher und 1,44 Exaflops an FP4-Tensorleistung pro VM bereitstellt. Im Kern jeder Rack-Einheit sitzt das liquidgekühlte GB300 NVL72-System mit 72 Blackwell Ultra GPUs und 36 NVIDIA Grace CPUs, die gemeinsam eine einheitliche, extrem leistungsfähige Rechenressource bilden. Dieses Design ist entscheidend für die Verarbeitung von Modellen mit Hunderten Billionen Parametern – wie sie für komplexe, agente-basierte KI-Systeme und multimodale Generativmodelle erforderlich sind. Die Leistung wurde in Benchmarktests der MLPerf Inference v5.1 unter Beweis gestellt: Die GB300 NVL72-Systeme erreichten bis zu fünfmal höhere Durchsatzraten pro GPU beim DeepSeek-R1-Modell (671 Milliarden Parameter) im Vergleich zur Hopper-Architektur, zudem zeigten sie Spitzenleistungen bei neuen Benchmarks wie dem Llama 3.1 405B-Modell. Die Netzwerkinfrastruktur setzt auf eine zweistufige Architektur: Innerhalb jedes Racks nutzt der fünfte Generation NVLink-Switch eine Bandbreite von 130 TB/s für direkte, all-to-all-Kommunikation zwischen den GPUs, wodurch das gesamte Rack zu einem einzigen, hochintegrierten Rechenknoten wird. Für die Skalierung über mehrere Racks hinaus sorgt das Quantum-X800-System mit fortschrittlichen Funktionen wie adaptiver Routing, telemetriebasiertem Lastmanagement und der SHARP v4-Technologie, die die Effizienz von großen Trainings- und Inferenzoperationen deutlich steigert. Diese Errungenschaft ist das Ergebnis einer jahrelangen strategischen Partnerschaft zwischen Microsoft und NVIDIA. Sie umfasst nicht nur die Hardware, sondern auch radikale Neuentwicklungen in Kühlung, Stromversorgung und Software-Orchestrierung. Microsoft hat sein gesamtes Datenzentren-Ökosystem neu gedacht, um die Anforderungen von „Frontier AI“ zu erfüllen. Die neuen Systeme sind Teil eines umfassenden Plans, hunderttausende Blackwell Ultra GPUs weltweit in den Microsoft Azure-Rechenzentren einzusetzen – mehr als 300 Standorte in 34 Ländern sind bereits beteiligt. Die Ankündigung kommt zu einem kritischen Zeitpunkt: Kurz zuvor hatte OpenAI mit Nvidia und AMD neue Großprojekte für eigene Datenzentren abgeschlossen. OpenAI plant bis 2025 Investitionen von bis zu einer Billion US-Dollar. Microsoft betont nun, dass es bereits über die benötigte Infrastruktur verfügt und „einzigartig positioniert“ ist, um die Anforderungen der nächsten AI-Generation zu erfüllen. Die neuen Systeme sollen nicht nur OpenAI, sondern auch andere Kunden bei der Entwicklung fortschrittlicher KI-Anwendungen unterstützen. Bereits im Oktober wird Microsoft CTO Kevin Scott auf der TechCrunch Disrupt in San Francisco weitere Details zur Skalierung und Zukunft der KI-Infrastruktur vorstellen. Die neue NDv6 GB300 VM-Serie markiert einen Meilenstein auf dem Weg zu einer neuen Ära der KI, in der Supercomputer-Skalierung und optimierte Hardware-Software-Integration entscheidend für Innovationen sind.

Verwandte Links