HyperAIHyperAI

Command Palette

Search for a command to run...

Nvidia kritisiert Microsofts Kühlung bei Blackwell-GPUs als verschwenderisch

Im Herbst 2024 hat ein Nvidia-Mitarbeiter in einem internen E-Mail-Vermerk kritisch auf die Kühlstrategie von Microsoft bei der Installation von Blackwell-Servern reagiert, indem er sie als „wasteful“ (verschwendend) bezeichnete. Die Beobachtung bezog sich auf eine Einrichtung in einem Microsoft-Rechenzentrum, in der zwei GB200 NVL72-Racks mit jeweils 72 Nvidia-GPUs aufgebaut wurden – Teil einer breiten Ausrollung der Blackwell-Architektur, die Nvidia im März 2024 vorgestellt hatte. Laut CEO Jensen Huang ist die Blackwell-Generation etwa doppelt so leistungsstark wie ihre Vorgängerin Hopper. Die GB200-Modelle sind Teil der ersten Welle der Blackwell-Verfügbarkeit, während die leistungsfähigere GB300-Generation mittlerweile ebenfalls im Einsatz ist. Der Nvidia-Infrastruktur-Spezialist (NVIS) bemerkte, dass die Kühlung der Server selbst über Flüssigkeitskühlung erfolgt – eine notwendige Maßnahme, da die Dichte und Leistung der GPUs enorme Wärmeentwicklung verursachen. Allerdings kritisierte er die Gebäudeebene der Kühlung, die nach seiner Ansicht auf Luftkühlung basiert, ohne Nutzung von Wasser. Diese Art der Kühlung sei energieintensiver, vermeide aber Wasserverbrauch. Der Experte Shaolei Ren von der University of California erklärte, dass solche Systeme zwar mehr Energie verbrauchen, aber öffentliche Bedenken hinsichtlich der Wassernutzung reduzieren, was für Unternehmen von Bedeutung sei. Microsoft bestätigte, dass es in bestehenden Luftgekühlten Rechenzentren geschlossene Flüssigkeitskühlungssysteme einsetzt, um die Kühlleistung zu erhöhen, ohne die bestehende Infrastruktur komplett umzubauen. Diese Strategie ermögliche eine Skalierung der AI-Infrastruktur, ohne neue Standorte mit hohem Wasserverbrauch zu benötigen. Gleichzeitig betont Microsoft sein Ziel, bis 2030 kohlenstoffnegativ, wasserpositiv und abfallfrei zu sein. Dazu gehört auch die Entwicklung einer „zero water cooling“-Architektur für zukünftige Rechenzentren sowie Fortschritte in der On-Chip-Kühlung. Im internen Bericht wurden zudem logistische Herausforderungen bei der Installation genannt: Die Koordination zwischen Nvidia und Microsoft erforderte mehr Abstimmung als bei früheren Projekten, und die Validierungsprozesse mussten ausführlich dokumentiert werden, da sie für weniger erfahrene Teams neu waren. Dennoch zeigte die Produktion der GB200-NVL72-Systeme eine hohe Qualität – beide Racks erreichten 100 % Bestehensrate bei Leistungsprüfungen. Nvidia betonte, dass Blackwell-Systeme hervorragende Leistung, Zuverlässigkeit und Energieeffizienz bieten und bereits hunderttausende Einheiten bei Kunden wie Microsoft im Einsatz sind. Bewertung und Hintergrund: Industrieanalysten sehen in der Kritik an Microsofts Kühlstrategie ein typisches Spannungsfeld zwischen Energieeffizienz, Wasserverbrauch und Infrastrukturkosten. Während Flüssigkeitskühlung wassersparend ist, erfordert sie meist teure, komplexe Systeme. Microsofts Ansatz, bestehende Luftkühlung mit Flüssigkeits-Heat-Exchangers zu ergänzen, zeigt eine pragmatische, skalierte Lösung. Nvidia, das die Hardware liefert, setzt auf Leistung und Effizienz, während Microsoft die Skalierbarkeit und Nachhaltigkeitsziele priorisiert. Beide Unternehmen arbeiten eng zusammen – insbesondere in der Zusammenarbeit mit OpenAI, dem Cloud-Partner und größten Investor von Microsoft. Die Entwicklung der Blackwell-Generation markiert einen Meilenstein in der AI-Infrastruktur, wobei die Balance zwischen Ressourcenverbrauch und Leistung weiterhin entscheidend für die zukünftige Skalierung der KI-Revolution bleibt.

Verwandte Links

Nvidia kritisiert Microsofts Kühlung bei Blackwell-GPUs als verschwenderisch | Aktuelle Beiträge | HyperAI