17 天前

DAT++：具有可变形注意力的空间动态视觉Transformer

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang

摘要

Transformer 在各类视觉任务中展现出卓越的性能。其较大的感受野赋予了 Transformer 模型相较于传统卷积神经网络（CNN）更强的表征能力。然而，单纯扩大感受野也带来了若干挑战。一方面，Vision Transformer（ViT）中采用的密集注意力机制导致内存占用和计算开销过高，且特征容易受到感兴趣区域之外无关信息的干扰；另一方面，PVT 或 Swin Transformer 中所采用的手工设计注意力机制具有数据无关性，可能限制了其建模长距离依赖关系的能力。为解决这一矛盾，本文提出一种新型可变形多头注意力模块，该模块在自注意力机制中以数据依赖的方式自适应地分配键（key）与值（value）对的位置。这种灵活的机制使所提出的可变形注意力能够动态聚焦于相关区域，同时保持全局注意力的表征能力。基于此，我们进一步提出了 Deformable Attention Transformer（DAT），一种通用且高效、有效的视觉识别主干网络。在此基础上，我们构建了增强版本 DAT++。大量实验表明，DAT++ 在多个视觉识别基准上均取得了当前最优性能：在 ImageNet 上达到 85.9% 的分类准确率，在 MS-COCO 数据集上实现 54.5 和 47.0 的实例分割 mAP，在 ADE20K 数据集上获得 51.5 的语义分割 mIoU。