AMD 预测:未来泽塔级超算功耗将达到半吉瓦,可供电37.5万户家庭
在2025年的ISC大会上,AMD讨论了人工智能加速器开发的限制因素,尤其是这些前沿芯片不断增加的功耗需求。据ComputerBase报道,AMD预计未来具备ZettaFLOP(泽塔浮点)计算能力的超级计算机将需要相当于核电站的电力供应水平,约为500兆瓦,足以供37.5万个家庭使用。 AMD展示了一张预测到2035年超级计算机功耗增长的图表。从2010年至2015年间,当时超级计算机的功耗为3.2 GF/瓦特。到了2035年,AMD预测具备泽塔浮点计算能力的超级计算机将达到每瓦特2140 GF的功耗,或半个吉瓦的总功耗。该预测假设每2.2年AI处理器的能效会提高两倍。 导致功耗急剧增加的主要原因包括内存带宽和冷却容量的需求。随着AI硬件计算能力的增强,内存带宽和数据中心冷却系统也必须相应提升,这形成了一个不断加剧的能耗循环。此外,对于FP128、FP64、FP16和FP8计算能力的需求也在推高功耗。尽管FP64和FP128提供了更高的精度,但某些工作负载在FP16和FP8下运行更为高效。因此,未来的AI加速器不仅需要支持高精度计算,还需要能够处理低精度操作。 当前,最新的AI加速器已经显示出功耗显著增长的趋势。例如,Nvidia的B200显卡热设计功率(TDP)达到1000瓦,而AMD新推出的MI355X的TDP更是高达1400瓦。相比之下,五年前的Nvidia旗舰AI GPU A100仅需400瓦电力,甚至低于RTX 5090的功耗。 为了应对这一日益严峻的能源问题,美国政府正在考虑采用核电站来解决超级计算机的能量需求。而一些大型企业,如微软,也在大规模投资核聚变技术,以解决其数据中心的功率问题。虽然目前最强大的超级计算机仍处于ExaFLOP(艾级浮点)水平,比如基于AMD-MI300A的最快的ElCaptain超级计算机,但全功能的AI数据中心已经开始接近泽塔浮点性能。Oracle是首个提供泽塔浮点云计算集群的企业,该集群包含131,072块Blackwell GPU,整体性能达到了2.4泽塔浮点运算。 业内人士认为,AMD的预测反映了未来AI计算中功耗问题的严重性。随着计算需求的不断增长,如何在提升性能的同时控制能耗成为关键挑战。同时,核能作为一种潜在解决方案,在技术成熟度和成本控制方面仍有待突破。AMD一直以来都是高性能计算领域的领先者,尤其在GPU和服务器处理器市场表现突出。该公司的前瞻性研究和技术布局对于行业的未来发展具有重要的参考价值。