TensorWave 部署北美最大 AMD GPU 集群,8192 个 MI325X 加速器液冷支持下全力运转
AI基础设施公司TensorWave近日宣布部署了北美最大的AMD GPU训练集群,该集群由8,192个最新的AMD Instinct MI325X加速器组成,并采用了直接液冷技术,成为公开部署的同类系统中规模最大的一个。在X平台上,TensorWave展示了集群高密度机架的照片,照片中的明亮橙色冷却管清晰可见,确认系统已经完全投入使用。 AMD在去年年底发布了Instinct MI325X,这是该公司迄今为止最强大也最具挑战性的AI加速器之一,旨在与NVIDIA争夺市场。每个MI325X单元拥有256GB的HBM3e内存,支持6TB/s的带宽,通过其19,456个流处理器和最高2.10GHz的时钟频率,可实现2.6 PFLOPS的FP8计算能力。尽管在价格上具有优势,但MI325X受到每节点最多只能连接8个GPU的限制,相比之下,NVIDIA的H200可以支持72个GPU,这也是MI325X未能迅速普及的原因之一。 TensorWave的独特之处在于他们没有试图在每个节点上与NVIDIA竞争性能,而是集中精力在热管理和机架密度上。该公司开发了一套专有的直接到芯片的液冷系统,使用橙色(偶尔也会用黄色)管道将冷却液输送到安装在每个MI325X上的冷板,有效解决了高功率需求下的散热问题。每个GPU的功耗达到了1,000瓦,即使是运行一小部分硬件也需要复杂的工程设计。8,192个GPU的总合带宽超过2 PB/s,估计可以提供21 exaFLOPS的FP8吞吐量,但这仍然取决于模型的并行化程度和互连设计。 TensorWave在此次大规模部署前获得了由AMD Ventures和Magnetar领投的1亿美元A轮融资。不同于大多数主要依赖NVIDIA硬件的云服务提供商,TensorWave全力押注AMD,不仅是因为AMD的价格更加实惠,更重要的是他们认为ROCm软件栈已经足够成熟,可以支持大规模模型训练。虽然NVIDIA的B100和H200加速器在AWS和CoreWeave等大型云服务商中广泛使用,整个AI市场的繁荣似乎都依赖于NVIDIA,但TensorWave的部署显示了AMD在AI领域的积极迹象。 TensorWave的部署并不是一次性项目,而是更大计划的第一阶段。公司计划在今年晚些时候集成AMD的下一代加速器MI350X。基于CDNA 4架构的MI350X支持更高的精度和更大的带宽,单芯片功耗可能高达1,400瓦,这使其无法仅靠空气冷却来维持,因此TensorWave在这方面的准备显得非常明智。ROCm软件栈仍需进一步完善,但凭借8,192个MI325X GPU的巨大规模和支持,AMD终于可以证明自己能够在同一个市场上与NVIDIA相提并论。 业内人士表示,TensorWave的大规模部署标志着AMD在AI加速器市场上的重要突破。该公司通过独特的液冷技术和机架设计成功克服了AMD硬件的一些局限性,展示了AMD在高性能计算领域的新潜力。这一发展不仅为AMD赢得了更多市场份额,也为其他寻求多样化的云服务商提供了新的选择。TensorWave的背景显示其致力于利用创新技术推动AI基础设施的发展,而AMD作为半导体行业的老将,正通过不断的技术迭代在AI赛道上迎头赶上。