HyperAI超神经

一名英伟达员工在内部邮件中批评微软在部署英伟达Blackwell GPU时的冷却系统“浪费”，相关邮件显示于今年初。随着英伟达GB200 Blackwell架构芯片在微软数据中心逐步安装，该员工指出，尽管服务器采用液冷技术，但整个数据中心的冷却方式在效率上存在不足。 GB200是英伟达于2024年3月发布的最新一代AI芯片，性能约为前代Hopper架构的两倍。此次部署涉及为OpenAI提供支持的服务器机柜，每台机柜配备72块GPU，属于NVL72型号。尽管服务器本身使用液冷以应对高热密度，但英伟达员工在邮件中提到，微软在建筑层面采用的冷却系统“规模过大，且未充分利用水资源”，虽具备高灵活性和容错能力，但“显得浪费”。据加州大学圣地亚哥分校电气与计算机工程副教授Shaolei Ren解释，数据中心的冷却系统通常分为两层：设备级的液冷和建筑级的散热。如果建筑级采用空气冷却而非水冷，虽然不耗水，但会显著增加能耗。他指出，这是一场在能源与水资源之间的权衡。企业需综合考虑成本、能效以及公众对水资源消耗的敏感度。微软回应称，其采用的是闭环式液冷热交换系统，部署在现有风冷数据中心中，以提升冷却能力，同时最大化现有全球数据中心的使用效率。该系统能有效支持AI和超大规模计算需求。微软还表示，其目标是到2030年实现“碳负排放、水正向、零废弃”，并已推出新一代“零水冷”设计和芯片级冷却技术。邮件还提到，部署初期存在一些协调和验证问题，如文档制定、流程验证和双方交接流程需加强。但总体来看，GB200生产版硬件质量已显著优于早期测试样本，两台NVL72机柜在关键计算性能测试中均实现100%通过率。英伟达方面表示，Blackwell系统在性能、可靠性和能效方面表现卓越，目前已有数十万套GB200和GB300 NVL72系统被包括微软在内的客户成功部署，以满足全球激增的AI算力需求。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

英伟达员工批评微软Blackwell GPU冷却系统“浪费资源”

相关链接

Command Palette

英伟达员工批评微软Blackwell GPU冷却系统“浪费资源”

相关链接

Command Palette

英伟达员工批评微软Blackwell GPU冷却系统“浪费资源”

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟