17 天前

ELSA:面向视觉Transformer的增强型局部自注意力机制

Jingkai Zhou, Pichao Wang, Fan Wang, Qiong Liu, Hao Li, Rong Jin
ELSA:面向视觉Transformer的增强型局部自注意力机制
摘要

自注意力机制在建模长距离依赖关系方面表现出强大的能力,但在局部细粒度特征学习方面表现较弱。局部自注意力(Local Self-Attention, LSA)的性能仅与卷积操作相当,且逊于动态滤波器,这一现象引发了研究者们的困惑:究竟应选择LSA还是其替代方法?哪一种更优?是什么导致了LSA表现平庸?为澄清上述问题,我们从通道设置与空间处理两个维度对LSA及其同类方法进行了系统性研究。研究发现,问题的关键在于空间注意力的生成与应用过程,其中相对位置编码以及邻域滤波器的应用是决定性能的核心因素。基于上述发现,我们提出了增强型局部自注意力机制(Enhanced Local Self-Attention, ELSA),其核心包含两个创新设计:Hadamard注意力与幽灵头(Ghost Head)。Hadamard注意力通过引入Hadamard积(逐元素乘积)高效生成邻域注意力,同时保持高阶映射能力;而幽灵头则通过将注意力图与静态矩阵相结合,显著提升通道容量。大量实验验证了ELSA的有效性。在不修改模型架构或超参数的前提下,仅将LSA替换为ELSA,即可使Swin Transformer \cite{swin}的Top-1准确率提升最高达+1.4。ELSA在VOLO \cite{volo}系列模型中亦表现出一致的性能增益,从D1到D5各版本均实现提升,其中ELSA-VOLO-D5在ImageNet-1K数据集上达到87.2的准确率,且无需额外训练图像。此外,我们在下游任务中评估了ELSA的表现:在COCO数据集上,其目标检测框AP(box AP)最高提升+1.9,实例分割掩码AP(mask AP)最高提升+1.3;在ADE20K语义分割任务中,mIoU最高提升+1.9。相关代码已开源,地址为:\url{https://github.com/damo-cv/ELSA}。