6 个月前

摘要

本文提出了一种新型视觉Transformer——Swin Transformer，能够作为计算机视觉领域的通用主干网络（backbone）。将Transformer从自然语言处理领域迁移到视觉任务面临诸多挑战，主要源于两个领域的本质差异：视觉实体的尺度变化极大，且图像像素的分辨率远高于文本中单词的表示粒度。为应对这些差异，我们设计了一种分层的Transformer架构，其特征表示通过移位窗口（Shifted Windows）机制进行计算。该移位窗口机制在保持自注意力计算局限于非重叠局部窗口以提升效率的同时，仍能实现跨窗口的信息交互。这种分层结构具备在多尺度上建模的灵活性，并且其计算复杂度与图像尺寸呈线性关系。上述特性使得Swin Transformer能够广泛适用于各类视觉任务，包括图像分类（在ImageNet-1K上达到87.3%的Top-1准确率）、密集预测任务如目标检测（在COCO test-dev上实现58.7 box AP和51.1 mask AP）以及语义分割（在ADE20K验证集上达到53.5 mIoU）。其性能显著超越此前的最先进方法，在COCO数据集上分别提升了+2.7 box AP和+2.6 mask AP，在ADE20K上提升了+3.2 mIoU，充分展示了基于Transformer的模型作为视觉主干网络的巨大潜力。此外，该分层设计与移位窗口策略对纯MLP架构也具有显著的提升作用。相关代码与预训练模型已公开发布于：https://github.com/microsoft/Swin-Transformer。

源 PDF