HyperAI超神経

GoogleがHot Chips 2025で発表したデータセンター向け液体冷却技術は、AIチップの急増する熱負荷に対応するための次世代冷却戦略の一部である。特に、同社が自社開発する機械学習アクセラレータ「TPU」の冷却に注力しており、2018年から実験を重ね、現在はラック単位の液体冷却ループを採用。冷却配管はサーバー内に閉じ込められるのではなく、複数のラックをつなぐ大規模な構成となっており、各ラックに搭載された「Coolant Distribution Unit（CDU）」が、冷却液と施設レベルの水との間で熱を交換する。CDUは柔軟なホースとクイック・ディスコネクト接続を採用し、メンテナンスの容易さと耐久性を両立。5台のCDUが稼働すれば、1台の交換でもシステム停止を伴わない、ゼロダウンタイムのメンテナンスが可能。 TPUv4では、前世代のTPUv3と比べて1.6倍の消費電力が課題となり、冷却効率を高めるために「スプリットフロー冷板」と「裸ダイ（bare-die）構造」を採用。前者は冷却液の流れを最適化し、後者はカバー（ラッピング）を外してチップ表面と直接接触させる手法で、熱伝導を大幅に改善。これはPC愛好家の「デリッジング」に類似するアプローチであり、冷却性能の向上を実現している。液体冷却の利点は熱除去効率だけでなく、エネルギー効率の面でも顕著。Googleの調査では、冷却用ポンプの消費電力は空冷方式のファンに比べて5％未満に抑えられる。また、水と水の熱交換により、冷却に必要な電力の大部分がポンプに集中するため、全体的なエネルギー効率が向上する。一方で、データセンターでは漏れや微生物の増殖といったリスクが大きな課題。Googleは漏れ検出テスト、アラートシステム、定期メンテナンス、フィルター採用、標準化された対応プロトコルを導入し、大規模な運用においても信頼性を維持。これは個人ユーザーの水冷PCとは大きく異なる、体系的な運用体制である。 Hot Chips 2025の会場では、NVIDIAのGB300サーバーや韓国企業Rebellions AIのデモ機も液体冷却を採用しており、AIの発展に伴い液体冷却がデータセンターの標準になりつつあることが明らかになった。今後もAIの進化が続く限り、液体冷却は不可欠な技術となるだろう。

Google、TPUにデータセンター規模の液体冷却を導入　Hot Chips 2025で技術詳細を公開

Related Links

Google、TPUにデータセンター規模の液体冷却を導入 Hot Chips 2025で技術詳細を公開

Related Links

Google、TPUにデータセンター規模の液体冷却を導入　Hot Chips 2025で技術詳細を公開