Back to Headlines

谷歌亮相2025年Hot Chips大会:揭秘下一代液冷数据中心技术

3 天前

在2025年Hot Chips大会上,谷歌详细介绍了其在数据中心级液冷技术方面的最新进展,重点聚焦于其TPU(张量处理单元)的液冷解决方案。随着AI芯片功耗持续攀升,传统风冷已难以应对高热密度,液冷凭借水的热导率约为空气的4000倍,成为高效散热的关键手段。 谷歌自2018年起开始探索并迭代液冷技术,如今已构建起覆盖整机柜的液冷系统。其核心是部署在机柜中的六组冷却分配单元(CDU),相当于发烧友水冷系统中的“水冷头+水泵”组合。这些CDU通过柔性软管和快拆接头连接,便于维护且降低安装公差要求。系统设计支持五台CDU运行,一台可离线维护而无需停机,保障了高可用性。 CDU通过水-水换热方式,将TPU产生的热量传递给数据中心的外部冷却水系统,两者液体不混合,仅实现热交换。冷却液经由分配歧管输送到各TPU服务器,芯片在冷却回路中串联布置,因此后端芯片面临温度更高的冷却液。为确保散热可靠性,系统按回路中最后一颗芯片的散热需求进行容量规划。 为提升冷却效率,谷歌采用“分流式冷板”设计,相比传统直通式结构表现更优。同时,TPUv4采用裸芯片(bare-die)封装,舍弃了传统盖板,类似于PC玩家“去盖”以提升导热效率的做法。这一设计正是应对TPUv4功耗较v3提升1.6倍的必要举措。 液冷不仅提升散热效率,还显著降低冷却系统自身能耗。谷歌测算,液冷泵的功耗不足风冷风扇的5%。与PC水冷依赖风扇将热量排至外部不同,数据中心采用水-水换热,大幅减少了冷却系统的电力消耗。 在维护方面,谷歌建立了完善的保障体系:组件全面进行泄漏测试,部署实时告警系统,定期过滤与维护,并制定标准化响应流程。这些措施确保了大规模部署下的稳定运行,远超个人玩家的“即兴维护”方式。 值得注意的是,液冷正从数据中心走向更广泛的展示舞台。NVIDIA GB300服务器已配备外接水冷接口,采用柔性管路并保留风扇。韩国公司Rebellions AI的“REBEL Quad”AI加速器演示也使用了冷水机与水冷块,虽最终将采用风冷,但当前液冷方案已彰显其在高算力场景下的不可替代性。 总体来看,AI算力爆发正推动液冷从边缘走向主流。尽管个人PC水冷与数据中心液冷在原理上相通,但后者因规模、可靠性和运维复杂度要求,已发展出完全不同的工程体系。液冷,已成数据中心应对AI时代热挑战的必然选择。

Related Links