HyperAI超神经

随着大语言模型上下文长度不断增长，注意力机制正向多头潜在注意力（MLA）和分组查询注意力（GQA）等复杂架构演进。在此背景下，AI的“思维速度”不再由矩阵乘法的高吞吐量决定，而是受限于softmax函数这类超越函数的计算效率。softmax依赖自然指数运算，该操作在NVIDIA GPU中由特殊功能单元（SFU）执行，对应SASS指令MUFU.EX2。由于SFU性能远低于Tensor Cores，导致在注意力计算中出现严重瓶颈：矩阵引擎需等待指数运算完成，造成大量空闲时间。 NVIDIA Blackwell Ultra通过将SFU的指数运算吞吐量提升一倍，有效缓解了这一瓶颈。该架构优化使softmax计算时间缩短近50%，显著压缩了注意力循环中BMM1（查询-键点积）与BMM2（概率-值点积）之间的等待间隙，使Tensor Cores能更高效地持续工作，整体推理吞吐量大幅提升。在实际测试中，基于GB300系统的Blackwell Ultra在FP8精度下，注意力前向传播（FPROP）性能相比GB200提升约35%。这一提升尤为显著，因为FP8下矩阵运算本身已极快，softmax的相对耗时占比更高，使其成为决定整体性能的关键瓶颈。通过构建微基准测试（如exp2-bg300.cu），可验证MUFU.EX2指令在GB300上的实际性能达到GB200的两倍，证实了SFU硬件升级的实效。该优化对于DeepSeek-V3等高度优化的模型尤为重要，其密集的softmax操作暴露了传统架构中非线性计算单元的瓶颈。 Blackwell Ultra不仅提升了SFU性能，还通过软硬件协同设计，全面加速注意力循环，包括TensorRT-LLM等优化技术。这表明，未来AI推理加速的关键，不仅在于提升矩阵计算能力，更需同步强化超越函数的处理效率。NVIDIA正通过此类底层创新，推动大模型推理进入新阶段。

相关链接

相关链接

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

Command Palette

NVIDIA Blackwell Ultra 引领 Softmax 效率新突破

相关链接

Command Palette

NVIDIA Blackwell Ultra 引领 Softmax 效率新突破

相关链接

Command Palette

NVIDIA Blackwell Ultra 引领 Softmax 效率新突破

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准