HyperAI超神经

AI基础设施公司TensorWave近日宣布部署了北美最大的AMD GPU训练集群，该集群由8,192个最新的AMD Instinct MI325X加速器组成，并采用了直接液冷技术，成为公开部署的同类系统中规模最大的一个。在X平台上，TensorWave展示了集群高密度机架的照片，照片中的明亮橙色冷却管清晰可见，确认系统已经完全投入使用。 AMD在去年年底发布了Instinct MI325X，这是该公司迄今为止最强大也最具挑战性的AI加速器之一，旨在与NVIDIA争夺市场。每个MI325X单元拥有256GB的HBM3e内存，支持6TB/s的带宽，通过其19,456个流处理器和最高2.10GHz的时钟频率，可实现2.6 PFLOPS的FP8计算能力。尽管在价格上具有优势，但MI325X受到每节点最多只能连接8个GPU的限制，相比之下，NVIDIA的H200可以支持72个GPU，这也是MI325X未能迅速普及的原因之一。 TensorWave的独特之处在于他们没有试图在每个节点上与NVIDIA竞争性能，而是集中精力在热管理和机架密度上。该公司开发了一套专有的直接到芯片的液冷系统，使用橙色（偶尔也会用黄色）管道将冷却液输送到安装在每个MI325X上的冷板，有效解决了高功率需求下的散热问题。每个GPU的功耗达到了1,000瓦，即使是运行一小部分硬件也需要复杂的工程设计。8,192个GPU的总合带宽超过2 PB/s，估计可以提供21 exaFLOPS的FP8吞吐量，但这仍然取决于模型的并行化程度和互连设计。 TensorWave在此次大规模部署前获得了由AMD Ventures和Magnetar领投的1亿美元A轮融资。不同于大多数主要依赖NVIDIA硬件的云服务提供商，TensorWave全力押注AMD，不仅是因为AMD的价格更加实惠，更重要的是他们认为ROCm软件栈已经足够成熟，可以支持大规模模型训练。虽然NVIDIA的B100和H200加速器在AWS和CoreWeave等大型云服务商中广泛使用，整个AI市场的繁荣似乎都依赖于NVIDIA，但TensorWave的部署显示了AMD在AI领域的积极迹象。 TensorWave的部署并不是一次性项目，而是更大计划的第一阶段。公司计划在今年晚些时候集成AMD的下一代加速器MI350X。基于CDNA 4架构的MI350X支持更高的精度和更大的带宽，单芯片功耗可能高达1,400瓦，这使其无法仅靠空气冷却来维持，因此TensorWave在这方面的准备显得非常明智。ROCm软件栈仍需进一步完善，但凭借8,192个MI325X GPU的巨大规模和支持，AMD终于可以证明自己能够在同一个市场上与NVIDIA相提并论。业内人士表示，TensorWave的大规模部署标志着AMD在AI加速器市场上的重要突破。该公司通过独特的液冷技术和机架设计成功克服了AMD硬件的一些局限性，展示了AMD在高性能计算领域的新潜力。这一发展不仅为AMD赢得了更多市场份额，也为其他寻求多样化的云服务商提供了新的选择。TensorWave的背景显示其致力于利用创新技术推动AI基础设施的发展，而AMD作为半导体行业的老将，正通过不断的技术迭代在AI赛道上迎头赶上。

TensorWave 部署北美最大 AMD GPU 集群，8192 个 MI325X 加速器液冷支持下全力运转

Related Links