17 days ago
PAROAttention:面向模式的重排序以提高视觉生成模型中稀疏和量化注意力机制的效率
Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu

摘要
在视觉生成中,注意力机制的二次复杂度导致了高内存和计算成本,尤其是在高分辨率图像或多帧视频生成所需的较长标记序列情况下。为了解决这一问题,先前的研究探索了稀疏化和量化等技术。然而,这些技术在低密度和减少位宽的情况下面临重大挑战。通过系统分析,我们发现核心难题源于视觉注意力模式的分散和不规则特性。因此,与其引入专门的稀疏化和量化设计来适应这些模式,我们提出了一种替代策略:重组 注意力模式以缓解这些挑战。受视觉特征提取局部聚合性质的启发,我们设计了一种新的 模式感知标记重排序(PARO) 技术,该技术将多样化的注意力模式统一为硬件友好的块状模式。这种统一显著简化并增强了稀疏化和量化的效果。我们评估了各种设计选择的性能与效率权衡,并最终确定了一种针对统一模式的方法论。我们的方法 PAROAttention 在几乎不损失指标的情况下实现了视频和图像生成,并且在显著降低密度(约 20%-30%)和位宽(INT8/INT4)的情况下,达到了与全精度(FP)基线几乎相同的结果,实现了 1.9倍 到 2.7倍 的端到端延迟加速。