
Transformer 正迅速成为跨模态、跨领域和多任务场景下应用最广泛的深度学习架构之一。在计算机视觉领域,除了对普通 Transformer 的持续探索外,层次化 Transformer 也因其优异的性能以及与现有框架的良好兼容性而受到广泛关注。这类模型通常采用局部注意力机制,例如滑动窗口式的邻域注意力(Neighborhood Attention, NA),或 Swin Transformer 中的移位窗口自注意力(Shifted Window Self Attention)。尽管这些局部注意力机制有效降低了自注意力的二次方复杂度,但其削弱了自注意力机制最核心的两个优势:长距离依赖建模能力与全局感受野。本文提出了一种自然、灵活且高效的 NA 扩展方法——扩张邻域注意力(Dilated Neighborhood Attention, DiNA),该方法能够在不增加计算成本的前提下,显著捕捉更广泛的全局上下文信息,并实现感受野的指数级扩展。NA 的局部注意力与 DiNA 的稀疏全局注意力相互补充,因此我们进一步提出了扩张邻域注意力 Transformer(Dilated Neighborhood Attention Transformer, DiNAT),一种基于两者构建的新一代层次化视觉 Transformer。DiNAT 各类变体在多个强基线模型(如 NAT、Swin 和 ConvNeXt)上均取得了显著性能提升。其中,我们的大型模型在 COCO 目标检测任务中比 Swin 模型快 1.6% 的框平均精度(box AP),在 COCO 实例分割任务中提升 1.4% 的掩码平均精度(mask AP),在 ADE20K 语义分割任务中提升 1.4% 的平均交并比(mIoU)。结合新型框架,我们的大型版本在 COCO 和 ADE20K 上分别成为新的全景分割(panoptic segmentation)最先进模型(COCO: 58.5 PQ;ADE20K: 49.4 PQ),并在 Cityscapes 和 ADE20K 上成为实例分割的最先进模型(Cityscapes: 45.1 AP;ADE20K: 35.4 AP),且未使用额外数据。此外,该模型在 ADE20K 语义分割任务上达到与当前最先进专用模型相当的性能(58.1 mIoU),并在 Cityscapes 上位列第二(84.5 mIoU),同样未依赖额外训练数据。