英伟达员工批评微软Blackwell GPU冷却系统“浪费资源”
一名英伟达员工在内部邮件中批评微软在部署英伟达Blackwell GPU时的冷却系统“浪费”,相关邮件显示于今年初。随着英伟达GB200 Blackwell架构芯片在微软数据中心逐步安装,该员工指出,尽管服务器采用液冷技术,但整个数据中心的冷却方式在效率上存在不足。 GB200是英伟达于2024年3月发布的最新一代AI芯片,性能约为前代Hopper架构的两倍。此次部署涉及为OpenAI提供支持的服务器机柜,每台机柜配备72块GPU,属于NVL72型号。尽管服务器本身使用液冷以应对高热密度,但英伟达员工在邮件中提到,微软在建筑层面采用的冷却系统“规模过大,且未充分利用水资源”,虽具备高灵活性和容错能力,但“显得浪费”。 据加州大学圣地亚哥分校电气与计算机工程副教授Shaolei Ren解释,数据中心的冷却系统通常分为两层:设备级的液冷和建筑级的散热。如果建筑级采用空气冷却而非水冷,虽然不耗水,但会显著增加能耗。他指出,这是一场在能源与水资源之间的权衡。企业需综合考虑成本、能效以及公众对水资源消耗的敏感度。 微软回应称,其采用的是闭环式液冷热交换系统,部署在现有风冷数据中心中,以提升冷却能力,同时最大化现有全球数据中心的使用效率。该系统能有效支持AI和超大规模计算需求。微软还表示,其目标是到2030年实现“碳负排放、水正向、零废弃”,并已推出新一代“零水冷”设计和芯片级冷却技术。 邮件还提到,部署初期存在一些协调和验证问题,如文档制定、流程验证和双方交接流程需加强。但总体来看,GB200生产版硬件质量已显著优于早期测试样本,两台NVL72机柜在关键计算性能测试中均实现100%通过率。 英伟达方面表示,Blackwell系统在性能、可靠性和能效方面表现卓越,目前已有数十万套GB200和GB300 NVL72系统被包括微软在内的客户成功部署,以满足全球激增的AI算力需求。
