HyperAI超神经

在ISC 2025大会上，AMD首席技术官马克·佩珀马斯特（Mark Papermaster）正式发布了Instinct MI355X加速器，该产品专为人工智能（AI）和高性能计算（HPC）设计。新一代加速器基于AMD的CDNA 4架构，支持FP4和FP6精度格式，这些低精度格式在AI推理任务中日益重要。尽管MI355X在功耗方面几乎比前一代产品翻了一番，但其推理性能得到了大幅提高。与前一年发布的Instinct MI325X相比，MI355X的性能显著提升。新的GPU在FP8精度下的计算吞吐量达到10.1 PFLOPS，而MI325X则分别为2.61 PFLOPS和5.22 PFLOPS（不使用/使用结构化稀疏）。此外，MI355X在FP4和FP6精度下的性能也优于MI325X和Nvidia的B300 GPU，后者在FP4精度下仅达到15 PFLOPS。 Instinct MI350X系列包括两个型号：标准版本MI350X消耗1000瓦的电能，适合风冷冷却；而更高性能的MI355X版本功耗最高达1400瓦，主要设计用于直接液体冷却，但也有一些客户可能会使用风冷方案。两者均配备288GB的HBM3E内存，带宽最高可达8 TB/s。此外，MI355X在FP4和FP6精度下的最大性能分别达到20.1 PFLOPS和161.06 PFLOPS。佩珀马斯特表示，随着技术的进步，未来超级计算机的功耗会继续增加。例如，2023年中期推出的Instinct MI300X峰值功耗为750瓦，而MI355X则达到了1400瓦。他还预计，2026-2027年的加速器功耗将达到1600瓦，到本十年末可能高达2000瓦。相比之下，Nvidia的Rubin Ultra GPU预计将消耗高达3600瓦的功率。 AMD的数据还显示，过去几十年来，超级计算机的性能每1.2年左右翻一番，早期主要依赖CPU系统，但从2005年起，异构架构（CPU与GPU或加速器的混合）开始发挥主导作用。如今，在“AI加速时代”，如El Capitan和Frontier等系统已超过1 ExaFLOP，进一步推动了性能的指数级增长。然而，性能增长的背后伴随着更高的功耗。为了保持性能提升的步伐，内存带宽和功耗优化已成为迫切需要解决的问题。AMD认为，每两年内存带宽必须增加一倍以上，以保持每个FLOPS的带宽比例。这意味需要增加每个GPU的HBM堆栈数量，导致更大的GPU和模块，功耗也随之增加。好消息是，超级计算机和加速器的性能效率也在迅速提高。AMD展示的数据表明，性能效率从2010年的约3.2 GFLOPS/W增加到2023年的大约52 GFLOPS/W。展望未来，要保持这种性能提升速度，每2.2年必须实现能耗效率的翻倍。对于能够实现千倍ExaFLOP级性能的ZettaFLOP系统来说，需要的功率约为500兆瓦。如果没有这样的能效提升，未来的超级计算机可能会需要数十亿瓦级别的能量供应，类似于整个核电站的产能，这将使其运营成本过高。业内人士认为，AMD发布的新产品展示了其在AI和HPC领域的强大实力和未来发展的潜力。同时，他们也指出，功耗问题将继续是行业面临的主要挑战之一，需要在技术创新和能源管理之间找到平衡点。AMD作为全球领先的半导体公司之一，一直在高性能计算和图形处理领域深耕细作，此次新款加速器的发布再次证明了其在这一领域的领导地位。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

AMD 新旗舰 GPU Instinct MI355X 功耗高达 1,400 瓦，AI 性能显著提升

相关链接

Command Palette

AMD 新旗舰 GPU Instinct MI355X 功耗高达 1,400 瓦，AI 性能显著提升

相关链接

Command Palette

AMD 新旗舰 GPU Instinct MI355X 功耗高达 1,400 瓦，AI 性能显著提升

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟