7 天前
DaViT:双注意力视觉Transformer
Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan

摘要
在本工作中,我们提出了双注意力视觉Transformer(Dual Attention Vision Transformers,简称DaViT),这是一种结构简洁但效果显著的视觉Transformer架构,能够在保持计算高效性的同时捕捉全局上下文信息。我们从一个正交的视角出发,提出同时利用“空间token”与“通道token”的自注意力机制。在空间token中,空间维度定义了token的作用范围,而通道维度则决定了token的特征维度;而在通道token中,二者角色互换:通道维度定义token的作用范围,空间维度则决定其特征维度。为进一步维持整个模型的线性计算复杂度,我们对空间token和通道token在序列方向上分别进行分组处理。实验表明,这两种自注意力机制具有良好的互补性:(i)由于每个通道token均包含对整幅图像的抽象表征,通道注意力在计算通道间注意力得分时,能够自然地整合所有空间位置的信息,从而有效捕捉全局交互与表示;(ii)空间注意力通过在空间位置之间进行细粒度交互,优化局部特征表示,进而增强通道注意力中的全局信息建模能力。大量实验证明,DaViT在四项不同任务上均取得了当前最优的性能表现,且计算效率优异。在不依赖额外数据的情况下,DaViT-Tiny、DaViT-Small和DaViT-Base在ImageNet-1K数据集上分别实现了82.8%、84.2%和84.6%的Top-1准确率,参数量分别为2830万、4970万和8790万。当进一步利用15亿个弱监督图像与文本对进行模型扩展时,DaViT-Giant在ImageNet-1K上达到了90.4%的Top-1准确率。代码已开源,详见:https://github.com/dingmyu/davit。