SageAttention2++:一种更高效的SageAttention2实现方法
Zhang, Jintao ; Xu, Xiaoming ; Wei, Jia ; Huang, Haofeng ; Zhang, Pengle ; Xiang, Chendong ; Zhu, Jun ; Chen, Jianfei
发布日期: 5/29/2025

摘要
注意力机制的效率至关重要,因为其时间复杂度随着序列长度的增加而呈二次增长。SageAttention2 通过利用量化技术加速注意力中的矩阵乘法(Matmul)来解决这一问题。为了进一步加速 SageAttention2,我们提出使用更快的 FP8 矩阵乘法指令并在 FP16 中累加结果。该指令比 SageAttention2 中使用的 FP8 矩阵乘法快两倍。实验结果显示,SageAttention2++ 的速度比 FlashAttention 提高了 3.9 倍,同时保持了与 SageAttention2 相同的注意力精度。这意味着 SageAttention2++ 能够在几乎不损失端到端指标的情况下有效加速多种模型,包括用于语言、图像和视频生成的模型。代码将在 https://github.com/thu-ml/SageAttention 上提供。