AMD 发布 CDNA 4:强化低精度矩阵运算,挑战 Nvidia 在机器学习领域的霸主地位
AMD 最新的 CDNA 4 架构主要是对 CDNA 3 的一次适度更新,旨在加强矩阵运算性能,特别是在低精度数据类型方面。这使得 CDNA 4 在机器学习工作负载中更具竞争力。新架构仍然沿用了大量与 CDNA 3 相同的系统级设计,例如大规模的芯片组布局(类似于 AMD 在 CPU 产品中的成功策略)。每个 Accelerator Compute Die (ACD) 或 XCD 包含 CDNA Compute Units,类似于 CPU 中的 Core Complex Dies (CCD)。8 个 XCD 坐在 4 个基底芯片上,这些基底芯片实现了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 提供了整个系统的相干内存访问,可以跨越多个芯片。 相比基于 CDNA 3 的 MI300X,CDNA 4 配备的 MI355X 在每个 XCD 上减少了计算单元(CU)的数量,并禁用了一些 CU 以维持产量。因此,尽管 GPU 稍显“窄”一些,但通过更高的时钟频率弥补了这一差距。与 Nvidia 的 B200 相比,MI355X 和 MI300 都是更大的 GPU,拥有更多的基本构建模块。虽然 Nvidia 采用了多芯片策略,打破了一直以来单一芯片的设计传统,但 AMD 的芯片组布局更为激进,目标是复制其在 CPU 设计方面的扩展成功。 CDNA 3 在矢量吞吐量方面明显领先于 Nvidia 的 H100,但在机器学习工作负载中面临更复杂的局面。由于 Nvidia 拥有成熟的软件生态系统,并且重点强化了矩阵乘法吞吐量(得益于其 tensor cores),H100 在这种低精度数据类型的工作负载中也能接近甚至超越 MI300X。然而,当 H100 缺乏足够的 VRAM 时,AMD 依然能保持巨大的优势。CDNA 4 正是在这一点上进行了优化,重新平衡了执行单元,使其更专注于低精度数据类型的矩阵运算。每个 CU 的矩阵吞吐量在许多情况下翻倍,达到了与 Nvidia B200 SM 相当的 FP6 性能水平。 虽然 Nvidia 在 16 位和 8 位数据类型上的每周期矩阵吞吐量仍然更高,但 AMD 依赖其更大的 GPU 核心数量和更高的时钟频率,继续保持总体吞吐量的优势。在矢量运算和高精度数据类型方面,AMD 继续保持 MI300X 的巨大优势。每个 CDNA 4 CU 仍具备 128 个 FP32 通道,能够每周期计算 256 个 FLOPS(考虑 FMA 操作)。由于 MI355X 的 CU 数量减少,其矢量性能相比 MI300X 有轻微下降,但与 Nvidia 的 Blackwell 相比,AMD 依然凭借更高的核心数量和更高的时钟频率保持了巨大的矢量吞吐量领先优势。 此外,CDNA 4 还增加了本地数据共享(LDS)的容量,从 CDNA 3 的 64 KB 提升到 160 KB,并将读带宽翻倍至 256 字节每时钟。这意味着软件可以在不担心 LDS 容量限制的情况下分配更多 LDS 容量,从而运行更多的工作组。例如,一个需要 16 KB LDS 的内核在 CDNA 3 上只能运行 4 个工作组,而在 CDNA 4 上可以增加到 10 个工作组。软件需要将数据显式地移动到 LDS,这可能会引入一定的开销,但 CDNA 4 增加了 GLOBAL_LOAD_LDS 指令的支持,允许每个通道每次操作最多 128 位数据,而 CDNA 3 只支持 32 位。 为了解决矩阵乘法中常见的内存访问模式低效问题,CDNA 4 引入了读取并转置的 LDS 指令,将不自然的行-列操作转换为更高效的行-行操作。即使 LSD 容量增加,AMD 与其竞争对手 Nvidia 在 GPU 核心内部的数据存储量上仍有差异。Nvidia 的 Blackwell SM 拥有 256 KB 的存储块,可以用作 L1 缓存或共享内存。如果分配 228 KB 作为共享内存,Nvidia 仍然有 92 KB 可用作 L1 缓存,而 AMD 的 CDNA 4 每个 CU 只有 32 KB 的 L1 内存。 为了给大型的计算单元数组提供支持,MI355X 大部分采用了与 MI300X 相同的系统级架构,但在几个方面进行了改进。例如,L2 缓存现在可以“回写脏数据并保留一行的副本”,这有助于在内存子系统负载低时机会性的使用写带宽,或者允许 L2 将一行数据转换为清洁状态,以便其他线程在系统中使用,而不再进行修改。此外,MI355X 的 HBM3E 内存子系统也得到了显著升级,提供高达 288 GB 的容量和 8 TB/s 的带宽,优于 Nvidia B200 的 180 GB 容量和 7.7 TB/s 的带宽。 总体而言,AMD 通过 CDNA 4 在保持其矢量运算和整体性能优势的同时,显著提高了低精度矩阵运算的能力。这一策略使其在与 Nvidia 的竞争中更加全面。业内人士普遍认为,AMD 的做法体现了其对现有成功的延续和优化,类似于 Nvidia 从 Hopper 到 Blackwell 的策略。CDNA 4 的推出不仅巩固了 AMD 在高性能计算领域的地位,还进一步拓展了其在机器学习市场的竞争力。AMD 在 GPU 领域的持续创新和技术积累为其赢得了业内外的广泛认可。