Nvidia社員がMicrosoftのBlackwell冷却方式を「無駄」と指摘 内部メールで明らかに
Nvidiaの従業員が、MicrosoftがBlackwell GPUの導入に用いている冷却システムについて「無駄が多い」と内部メールで指摘した。2024年秋、Nvidiaのインフラスペシャリスト(NVIS)チームのスタッフが、MicrosoftがOpenAIのクラウド基盤として運用するデータセンターでのGB200 Blackwellアーキテクチャ導入状況を報告するメールを送信。このメールでは、72個のGPUを搭載する2台のNVL72ラックを設置したが、その冷却方法について「規模が大きく、水の使用が見られないため、効率が悪い」と評価。一方で、柔軟性と障害耐性は高いと補足した。 この冷却システムは、サーバー単位で液体冷却を採用しつつ、建物全体では空気冷却を併用する二段階方式。専門家であるカリフォルニア大学のシャオレイ・レン准教授は、空気冷却はエネルギー消費が高くなるが、水の使用が不要な点で環境面での利点があると説明。企業は水のコスト、電力コスト、そして公的批判のリスク(「水の使用」は社会的に目立つ)を総合的に判断して設計していると指摘。 Microsoftは、2030年までに「炭素負の排出」「水の浄化」「ゼロ廃棄」を達成する目標を掲げており、次世代データセンターでは「水を使わない冷却設計」を導入すると発表。また、チップ内冷却技術の革新も進めている。 内部メールでは、導入プロセスに課題もあったと記されている。現場でのサポートが不可欠だったほか、検証プロセスの文書化や、NvidiaとMicrosoft間の引き渡し手続きに多くの時間と調整が必要だった。しかし、生産版のGB200 NVL72は初期サンプルに比べ品質が向上し、性能テストで100%の合格率を達成したと報告された。 Nvidia側は、BlackwellシリーズがAI需要の急増に対応するため、高い性能・信頼性・エネルギー効率を実現しており、Microsoftを含む多数の顧客が数十万基を導入していると強調。AIインフラの拡大に伴い、冷却技術の選定はエネルギーと水の両面でのトレードオフが生じる中、企業は効率と社会的責任のバランスを取る必要がある。
