HyperAIHyperAI
Back to Headlines

Google dévoile son système de refroidissement liquide à grande échelle pour ses TPUs au Hot Chips 2025

il y a 3 jours

Le refroidissement liquide, déjà courant chez les passionnés de PC, connaît une montée en puissance croissante dans les centres de données, en réponse à la forte consommation électrique et à la chaleur générée par les nouveaux processeurs, notamment dans le domaine de l’intelligence artificielle. Google a présenté à Hot Chips 2025 son approche à grande échelle du refroidissement liquide pour ses accélérateurs TPU, conçus pour le traitement d’IA. Leur solution repose sur une efficacité thermique supérieure : l’eau possède une conductivité thermique environ 4000 fois plus élevée que l’air, ce qui en fait un excellent vecteur pour dissiper la chaleur produite par les puces à haute densité. Depuis 2018, Google a progressivement développé son système, passant d’essais initiaux à une architecture de refroidissement à l’échelle du centre de données, où les boucles de liquide refroidissant s’étendent sur plusieurs armoires plutôt que d’être confinées à un serveur. Le cœur du système repose sur des unités de distribution de liquide (CDU), six par armoire, qui remplacent la fonction combinée du radiateur et de la pompe dans un système de refroidissement de PC. Ces CDUs utilisent des flexibles et des raccords rapides pour faciliter l’entretien et réduire les contraintes mécaniques. Un ensemble de cinq CDUs suffit à fournir une capacité de refroidissement adéquate, permettant de maintenir une armoire en fonctionnement même pendant la maintenance d’un des unités. Les CDUs transfèrent la chaleur entre le liquide de refroidissement interne et l’eau du système de bâtiment, sans mélange des deux fluides. Le liquide circule ensuite via des collecteurs (manifolds) jusqu’aux serveurs équipés de TPUs, où les puces sont connectées en série dans la boucle, ce qui implique que les dernières puces reçoivent un liquide déjà chauffé. La conception est donc calibrée pour répondre aux besoins thermiques de la dernière puce du circuit. Google a adopté un bloc refroidisseur à flux divisé, qui s’est avéré plus performant qu’une configuration classique en ligne droite. Par ailleurs, la version TPUv4 utilise une architecture « bare-die », sans couvercle (lidded), contrairement au TPUv3. Cette décision, similaire au « delidding » pratiqué par les passionnés, permet une meilleure dissipation thermique, essentielle compte tenu de la hausse de 60 % de la consommation électrique par rapport à la génération précédente. En outre, le refroidissement liquide permet de réduire la consommation énergétique liée au refroidissement : les pompes utilisées consomment moins de 5 % de l’énergie des ventilateurs nécessaires pour un refroidissement par air. Cette économie est significative à l’échelle des centres de données, où les ventilateurs de serveurs tournent à grande vitesse, contrairement aux PC où les pertes sont marginales. La maintenance reste un enjeu majeur. Les risques de fuite ou de croissance microbienne sont présents aussi bien dans les systèmes de PC que dans les centres de données. Google a mis en place des protocoles rigoureux : tests de fuite systématiques, systèmes d’alerte, entretien préventif, filtration du liquide, et procédures standardisées pour répondre aux incidents. L’existence d’un CDU de rechange permet une maintenance sans interruption de service, un avantage crucial à grande échelle, là où un utilisateur amateur doit éteindre son système pour réparer un circuit. À Hot Chips 2025, les signes du refroidissement liquide sont visibles partout : Nvidia montre un serveur GB300 avec des connexions externes de refroidissement liquide et des flexibles, tout en conservant des ventilateurs. Rebellions AI, une entreprise sud-coréenne, démontre son accélérateur REBEL Quad avec un bloc refroidisseur connecté à un chiller. Ces exemples confirment que le refroidissement liquide est désormais incontournable dans les centres de données, poussé par l’essor de l’IA. L’efficacité thermique, la réduction de la consommation énergétique et la fiabilité à grande échelle font de cette technologie une solution durable pour l’avenir du calcul intensif.

Related Links

Google dévoile son système de refroidissement liquide à grande échelle pour ses TPUs au Hot Chips 2025 | Gros titres | HyperAI