17 天前
DAT++:具有可变形注意力的空间动态视觉Transformer
Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang

摘要
Transformer 在各类视觉任务中展现出卓越的性能。其较大的感受野赋予了 Transformer 模型相较于传统卷积神经网络(CNN)更强的表征能力。然而,单纯扩大感受野也带来了若干挑战。一方面,Vision Transformer(ViT)中采用的密集注意力机制导致内存占用和计算开销过高,且特征容易受到感兴趣区域之外无关信息的干扰;另一方面,PVT 或 Swin Transformer 中所采用的手工设计注意力机制具有数据无关性,可能限制了其建模长距离依赖关系的能力。为解决这一矛盾,本文提出一种新型可变形多头注意力模块,该模块在自注意力机制中以数据依赖的方式自适应地分配键(key)与值(value)对的位置。这种灵活的机制使所提出的可变形注意力能够动态聚焦于相关区域,同时保持全局注意力的表征能力。基于此,我们进一步提出了 Deformable Attention Transformer(DAT),一种通用且高效、有效的视觉识别主干网络。在此基础上,我们构建了增强版本 DAT++。大量实验表明,DAT++ 在多个视觉识别基准上均取得了当前最优性能:在 ImageNet 上达到 85.9% 的分类准确率,在 MS-COCO 数据集上实现 54.5 和 47.0 的实例分割 mAP,在 ADE20K 数据集上获得 51.5 的语义分割 mIoU。