HyperAI

主体总结 NVIDIA近期在MLPerf Training v5.0基准测试中取得了一系列显著的成绩，展示了其Blackwell架构在高性能计算领域的领先地位。这一轮测试包括了七个不同的基准任务，涵盖了大模型预训练、微调、文本生成图像、推荐系统、图神经网络、自然语言处理和对象检测等多个领域。其中，NVIDIA平台在所有基准测试中均取得了最快的训练时间。关键人物或参与组织主要参与组织是NVIDIA及其合作伙伴，如CoreWeave和IBM。NVIDIA的Blackwell架构是此次测试的核心技术。事件的时间线与背景 MLPerf Training是一系列长期进行的基准测试，旨在评估平台训练模型的速度和质量。最新的v5.0版本于2025年6月4日发布，NVIDIA在此次测试中提交了基于GB200 NVL72系统的数据。事件的起因、发展过程与结果起因：随着大模型参数数量和训练数据集规模的增加，训练所需算力急剧增长。高性能训练集群成为解锁更大、更智能模型的关键。MLPerf Training v5.0应运而生，评估不同平台在训练这些模型时的表现。发展过程： 1. 预训练大模型：NVIDIA Blackwell架构通过第五代NVLink和NVLink Switch技术大幅提高了GPU之间的带宽，使得GB200 NVL72系统在Llama 3.1 405B预训练基准测试中，相比于上一代Hopper架构，性能提升了2.2倍。这一成绩得益于Transformer Engine、NVLink技术和HBM3e内存的优化。 2. 微调大模型：在Llama 2 70B LoRA微调基准测试中，八颗Blackwell GPU组成的GB200 NVL72系统比上一代八颗Hopper GPU的DGX H100系统快2.5倍。这主要归功于更高的每GPU性能和更大的内存容量，使得模型可以在单个GPU上完成训练，减少了模型并行通信开销。 3. 文本生成图像：在Stable Diffusion v2预训练基准测试中，GB200 NVL72系统比上一代H100 GPU的性能高2.6倍。这一成果得益于Apex GroupNorm内核的改进和CUDA Graphs的优化。 4. 图神经网络：在R-GAT训练测试中，GB200 NVL72系统比上一代H100 GPU快2.25倍。这些性能提升主要得益于优化的CUDA Graphs和Triton内核的使用。结果： NVIDIA在所有七项基准测试中都取得了最快的成绩，尤其是在大规模训练任务中表现出色。这些性能提升不仅缩短了模型训练时间，还为部署更复杂、更大型的AI模型奠定了基础。主要事实、突破或转折点 Transformer Engine：第二代Transformer Engine显著提高了训练速度。 NVLink 和 NVIDIA NVLink Switch：第五代技术增加了GPU之间的通信带宽，扩展了NVLink域的大小。 HBM3e 内存：更高带宽和更高容量的内存使模型能够在单个GPU上运行。 CUDA Graphs：全前向后向图的处理减少了许多小操作带来的性能开销，提高了训练效率。优化的库和框架：cuBLAS、cudNN和NeMo等库和框架的优化极大地提高了性能。相关背景信息 NVIDIA与全球多家知名公司合作，共同推动AI工厂的建设，加速下一代AI应用的开发和部署。AI工厂将成为推动代理型AI经济发展的引擎，为各行各业提供宝贵的智能支持。背景补充专家评论指出，NVIDIA Blackwell架构的推出标志着高性能计算领域的又一次重大飞跃。这一架构不仅在硬件层面进行了多项创新，还在软件层面提供了丰富的优化工具和支持，使其在各类AI工作负载中表现优异。 NVIDIA是一家在GPU和AI计算领域处于领导地位的公司，其数据中心平台集成了高性能GPU、CPU、高速互连技术和丰富的软件生态，为组织提供了强大的技术支持。此次在MLPerf Training v5.0中的出色表现进一步巩固了其市场地位，并为未来的AI应用提供了有力的技术支撑。这些性能提升将对整个AI产业产生深远影响，不仅缩短了从训练到部署的时间，还推动了更大、更复杂的模型的快速发展，为各个领域的创新应用提供了更多可能。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

英伟达Blackwell在MLPerf训练5.0版中性能提升至2.6倍

相关链接

Command Palette

英伟达Blackwell在MLPerf训练5.0版中性能提升至2.6倍

相关链接

Command Palette

英伟达Blackwell在MLPerf训练5.0版中性能提升至2.6倍

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答