HyperAI超神经

在2025年Hot Chips大会上，谷歌详细介绍了其在数据中心级液冷技术方面的最新进展，重点聚焦于其TPU（张量处理单元）的液冷解决方案。随着AI芯片功耗持续攀升，传统风冷已难以应对高热密度，液冷凭借水的热导率约为空气的4000倍，成为高效散热的关键手段。谷歌自2018年起开始探索并迭代液冷技术，如今已构建起覆盖整机柜的液冷系统。其核心是部署在机柜中的六组冷却分配单元（CDU），相当于发烧友水冷系统中的“水冷头+水泵”组合。这些CDU通过柔性软管和快拆接头连接，便于维护且降低安装公差要求。系统设计支持五台CDU运行，一台可离线维护而无需停机，保障了高可用性。 CDU通过水-水换热方式，将TPU产生的热量传递给数据中心的外部冷却水系统，两者液体不混合，仅实现热交换。冷却液经由分配歧管输送到各TPU服务器，芯片在冷却回路中串联布置，因此后端芯片面临温度更高的冷却液。为确保散热可靠性，系统按回路中最后一颗芯片的散热需求进行容量规划。为提升冷却效率，谷歌采用“分流式冷板”设计，相比传统直通式结构表现更优。同时，TPUv4采用裸芯片（bare-die）封装，舍弃了传统盖板，类似于PC玩家“去盖”以提升导热效率的做法。这一设计正是应对TPUv4功耗较v3提升1.6倍的必要举措。液冷不仅提升散热效率，还显著降低冷却系统自身能耗。谷歌测算，液冷泵的功耗不足风冷风扇的5%。与PC水冷依赖风扇将热量排至外部不同，数据中心采用水-水换热，大幅减少了冷却系统的电力消耗。在维护方面，谷歌建立了完善的保障体系：组件全面进行泄漏测试，部署实时告警系统，定期过滤与维护，并制定标准化响应流程。这些措施确保了大规模部署下的稳定运行，远超个人玩家的“即兴维护”方式。值得注意的是，液冷正从数据中心走向更广泛的展示舞台。NVIDIA GB300服务器已配备外接水冷接口，采用柔性管路并保留风扇。韩国公司Rebellions AI的“REBEL Quad”AI加速器演示也使用了冷水机与水冷块，虽最终将采用风冷，但当前液冷方案已彰显其在高算力场景下的不可替代性。总体来看，AI算力爆发正推动液冷从边缘走向主流。尽管个人PC水冷与数据中心液冷在原理上相通，但后者因规模、可靠性和运维复杂度要求，已发展出完全不同的工程体系。液冷，已成数据中心应对AI时代热挑战的必然选择。

谷歌亮相2025年Hot Chips大会：揭秘下一代液冷数据中心技术

Related Links