NVIDIA Blackwell Ultra 引领 Softmax 效率新突破
随着大语言模型上下文长度不断增长,注意力机制正向多头潜在注意力(MLA)和分组查询注意力(GQA)等复杂架构演进。在此背景下,AI的“思维速度”不再由矩阵乘法的高吞吐量决定,而是受限于softmax函数这类超越函数的计算效率。softmax依赖自然指数运算,该操作在NVIDIA GPU中由特殊功能单元(SFU)执行,对应SASS指令MUFU.EX2。由于SFU性能远低于Tensor Cores,导致在注意力计算中出现严重瓶颈:矩阵引擎需等待指数运算完成,造成大量空闲时间。 NVIDIA Blackwell Ultra通过将SFU的指数运算吞吐量提升一倍,有效缓解了这一瓶颈。该架构优化使softmax计算时间缩短近50%,显著压缩了注意力循环中BMM1(查询-键点积)与BMM2(概率-值点积)之间的等待间隙,使Tensor Cores能更高效地持续工作,整体推理吞吐量大幅提升。 在实际测试中,基于GB300系统的Blackwell Ultra在FP8精度下,注意力前向传播(FPROP)性能相比GB200提升约35%。这一提升尤为显著,因为FP8下矩阵运算本身已极快,softmax的相对耗时占比更高,使其成为决定整体性能的关键瓶颈。 通过构建微基准测试(如exp2-bg300.cu),可验证MUFU.EX2指令在GB300上的实际性能达到GB200的两倍,证实了SFU硬件升级的实效。该优化对于DeepSeek-V3等高度优化的模型尤为重要,其密集的softmax操作暴露了传统架构中非线性计算单元的瓶颈。 Blackwell Ultra不仅提升了SFU性能,还通过软硬件协同设计,全面加速注意力循环,包括TensorRT-LLM等优化技术。这表明,未来AI推理加速的关键,不仅在于提升矩阵计算能力,更需同步强化超越函数的处理效率。NVIDIA正通过此类底层创新,推动大模型推理进入新阶段。
