HyperAIHyperAI

Command Palette

Search for a command to run...

Nvidia critique le système de refroidissement de Microsoft pour ses puces Blackwell, le jugeant « gaspilleur »

Un employé d’Nvidia a qualifié le système de refroidissement utilisé par Microsoft pour ses puces Blackwell de « gaspilleur » dans un courriel interne daté du début de l’automne. Ce courriel, émanant d’un membre de l’équipe Infrastructure Specialists (NVIS) d’Nvidia, décrit l’installation de deux racks GB200 NVL72 dans un centre de données de Microsoft, dédiés au support d’OpenAI, le partenaire cloud et investisseur majeur de Microsoft. Chaque rack abrite 72 puces GPU Nvidia, une configuration exigeant un refroidissement liquide intensif en raison de la chaleur générée par l’ensemble des GPU fonctionnant en tandem. L’employé a noté que, bien que le refroidissement liquide soit utilisé au niveau des serveurs, le système de refroidissement global du bâtiment semblait peu efficace, en raison de sa taille et de l’absence d’utilisation d’eau dans le processus. Il a toutefois reconnu que cette approche offrait une grande flexibilité et une tolérance aux pannes. Selon Shaolei Ren, professeur associé en génie électrique et informatique à l’Université de Californie, ce type de système de refroidissement à l’air, bien qu’énergivore, permet d’éviter l’usage d’eau, un avantage en contexte de pénurie ou de pression publique. Microsoft a confirmé un système de refroidissement en boucle fermée, intégré dans des centres de données existants, conçu pour améliorer la capacité de refroidissement sans modifier l’infrastructure existante. Le groupe explique que ce système permet d’optimiser son empreinte mondiale tout en répondant aux besoins croissants des systèmes d’IA à grande échelle. Cependant, l’approche soulève un dilemme : l’air refroidi consomme plus d’énergie, mais évite l’usage d’eau, un enjeu crucial dans certaines régions. L’ingénieur d’Nvidia a également évoqué des difficultés logistiques durant le déploiement, notamment la nécessité de créer des documents de validation et de renforcer les processus de transfert entre les équipes Nvidia et Microsoft. Malgré ces défis, le courriel indique que la qualité des composants de production GB200 NVL72 s’est améliorée par rapport aux échantillons de test, avec un taux de réussite de 100 % sur certains tests de performance. Nvidia affirme que ses systèmes Blackwell offrent des performances, une fiabilité et une efficacité énergétique exceptionnelles, et que des centaines de milliers de systèmes GB200 et GB300 NVL72 ont été déployés par des clients comme Microsoft pour répondre à la demande mondiale croissante en intelligence artificielle. En parallèle, Microsoft s’est engagé à devenir « négatif en carbone, positif en eau et à déchets zéro » d’ici 2030, et a annoncé un design de refroidissement sans eau pour ses prochaines générations de centres de données, ainsi que des progrès dans le refroidissement sur puce. Ces initiatives reflètent une tendance croissante vers l’optimisation des ressources dans l’infrastructure de l’IA, où les choix entre énergie, eau et image publique deviennent des décisions stratégiques majeures.

Liens associés

Nvidia critique le système de refroidissement de Microsoft pour ses puces Blackwell, le jugeant « gaspilleur » | Articles tendance | HyperAI