英伟达Blackwell在MLPerf训练5.0版中性能提升至2.6倍
主体总结 NVIDIA近期在MLPerf Training v5.0基准测试中取得了一系列显著的成绩,展示了其Blackwell架构在高性能计算领域的领先地位。这一轮测试包括了七个不同的基准任务,涵盖了大模型预训练、微调、文本生成图像、推荐系统、图神经网络、自然语言处理和对象检测等多个领域。其中,NVIDIA平台在所有基准测试中均取得了最快的训练时间。 关键人物或参与组织 主要参与组织是NVIDIA及其合作伙伴,如CoreWeave和IBM。NVIDIA的Blackwell架构是此次测试的核心技术。 事件的时间线与背景 MLPerf Training是一系列长期进行的基准测试,旨在评估平台训练模型的速度和质量。最新的v5.0版本于2025年6月4日发布,NVIDIA在此次测试中提交了基于GB200 NVL72系统的数据。 事件的起因、发展过程与结果 起因: 随着大模型参数数量和训练数据集规模的增加,训练所需算力急剧增长。高性能训练集群成为解锁更大、更智能模型的关键。MLPerf Training v5.0应运而生,评估不同平台在训练这些模型时的表现。 发展过程: 1. 预训练大模型:NVIDIA Blackwell架构通过第五代NVLink和NVLink Switch技术大幅提高了GPU之间的带宽,使得GB200 NVL72系统在Llama 3.1 405B预训练基准测试中,相比于上一代Hopper架构,性能提升了2.2倍。这一成绩得益于Transformer Engine、NVLink技术和HBM3e内存的优化。 2. 微调大模型:在Llama 2 70B LoRA微调基准测试中,八颗Blackwell GPU组成的GB200 NVL72系统比上一代八颗Hopper GPU的DGX H100系统快2.5倍。这主要归功于更高的每GPU性能和更大的内存容量,使得模型可以在单个GPU上完成训练,减少了模型并行通信开销。 3. 文本生成图像:在Stable Diffusion v2预训练基准测试中,GB200 NVL72系统比上一代H100 GPU的性能高2.6倍。这一成果得益于Apex GroupNorm内核的改进和CUDA Graphs的优化。 4. 图神经网络:在R-GAT训练测试中,GB200 NVL72系统比上一代H100 GPU快2.25倍。这些性能提升主要得益于优化的CUDA Graphs和Triton内核的使用。 结果: NVIDIA在所有七项基准测试中都取得了最快的成绩,尤其是在大规模训练任务中表现出色。这些性能提升不仅缩短了模型训练时间,还为部署更复杂、更大型的AI模型奠定了基础。 主要事实、突破或转折点 Transformer Engine:第二代Transformer Engine显著提高了训练速度。 NVLink 和 NVIDIA NVLink Switch:第五代技术增加了GPU之间的通信带宽,扩展了NVLink域的大小。 HBM3e 内存:更高带宽和更高容量的内存使模型能够在单个GPU上运行。 CUDA Graphs:全前向后向图的处理减少了许多小操作带来的性能开销,提高了训练效率。 优化的库和框架:cuBLAS、cudNN和NeMo等库和框架的优化极大地提高了性能。 相关背景信息 NVIDIA与全球多家知名公司合作,共同推动AI工厂的建设,加速下一代AI应用的开发和部署。AI工厂将成为推动代理型AI经济发展的引擎,为各行各业提供宝贵的智能支持。 背景补充 专家评论指出,NVIDIA Blackwell架构的推出标志着高性能计算领域的又一次重大飞跃。这一架构不仅在硬件层面进行了多项创新,还在软件层面提供了丰富的优化工具和支持,使其在各类AI工作负载中表现优异。 NVIDIA是一家在GPU和AI计算领域处于领导地位的公司,其数据中心平台集成了高性能GPU、CPU、高速互连技术和丰富的软件生态,为组织提供了强大的技术支持。此次在MLPerf Training v5.0中的出色表现进一步巩固了其市场地位,并为未来的AI应用提供了有力的技术支撑。 这些性能提升将对整个AI产业产生深远影响,不仅缩短了从训练到部署的时间,还推动了更大、更复杂的模型的快速发展,为各个领域的创新应用提供了更多可能。
