HyperAI超神经
Back to Headlines

NVIDIA cuBLAS 12.9:大幅提升矩阵乘法性能与灵活性

20 days ago

NVIDIA在最新发布的CUDA Toolkit 12.9中对cuBLAS库进行了重要更新,显著提升了矩阵乘法的性能和灵活性。这些改进不仅对大规模语言模型(LLMs)的训练和推理任务具有重要意义,还广泛适用于人工智能、科学计算等领域。 cuBLAS 12.9 的主要更新 1. 改进的FP8矩阵乘法支持 cuBLAS 12.9 引入了多种新的FP8(8位浮点数)缩放方案,以提高在NVIDIA Hopper架构上的精度和性能。此前版本仅支持全张量缩放(单个缩放因子),而新版本则允许更精细的控制,如通道级或外向量级缩放,即每个A矩阵的行或B矩阵的列可以有不同的缩放因子。进一步地,新版本还支持块级缩放,即将128个元素作为一个1D块或128×128个元素作为一个2D块来应用不同的缩放因子。这使得在精度和性能之间取得更好的平衡。 基准测试显示,使用这些新的FP8缩放方案,矩阵乘法的速度最多可提高1.75倍,在大多数情况下至少可以提高1.25倍。 2. 黑硅架构下的FP4和FP8块级缩放 NVIDIA 黑硅(Blackwell)张量核心引入了对1D块级FP4和FP8浮点类型的原生支持。这种新的缩放方法允许在每个块内更精确地表示数值,从而提高了整体精度。通过cuBLASLt库的API,cuBLAS 12.9能够利用这些新的数据类型。此外,当输出是一个FP4张量时,还有第二级缩放因子应用于所有值,然后再进行量化处理。 3. 性能优化 使用新数据类型、运行时启发式算法和内核优化,cuBLAS 12.9在黑硅架构上表现出了令人印象深刻的速度提升。合成基准测试表明,对于大型计算密集型矩阵,GB200在块级FP4上的性能比H200的FP8基准提升了4.6倍,最高达到6787 TFLOPS/s(每秒万亿次浮点运算)。在实际的LLM训练和推理工作负载中,黑硅架构至少提高了1.7倍的速度,最高达到了2.2倍的性能提升。 4. 通过BF16硬件加速FP32矩阵乘法 除了对FP4和FP8的支持,cuBLAS 12.9还通过BF16(脑浮点16位)张量核心实现了FP32(32位浮点数)矩阵乘法的模拟,从而在某些情况下提高了性能和能量效率。例如,在最大矩阵尺寸为32,768×32,768的情况下,FP32模拟的性能比B200或H200的本地FP32提高了3到4倍。 这一功能在科学计算应用中的表现尤为突出。在Weather Forecasting应用中,FP32模拟带来了1.4倍的性能提升和1.3倍的能量效率提升。 如何开始使用 开发人员可以下载CUDA Toolkit 12.9中的cuBLAS 12.9,开始利用这些新功能加速应用。具体用法和详细信息可以在cuBLAS文档中找到,其中包括Hopper的新缩放方案、Blackwell的块级缩放数据类型以及Blackwell的FP32模拟技术。 行业人士评价 NVIDIA的这一更新被业界广泛赞誉,认为其显著提高了大规模矩阵运算的效率和灵活性。特别是在大规模语言模型的训练和推理任务中,cuBLAS 12.9的性能提升有望加速AI的发展和应用。这标志着NVIDIA在硬件和软件协同优化方面的又一重大进步,体现了其在高性能计算领域的领导地位。 NVIDIA 是全球领先的GPU制造商,以其在图形处理和深度学习领域的创新而闻名。CUDA-X数学库是NVIDIA的一个重要工具集,支持多种高性能计算应用,此次更新进一步巩固了其在AI和科学计算领域的优势。

Related Links