6 个月前

摘要

多年来，视觉识别领域一直由卷积神经网络（CNNs）主导。尽管近期主流的视觉Transformer（ViTs）在ImageNet分类任务中展现出基于自注意力机制模型的巨大潜力，但在未使用额外数据的情况下，其性能仍不及最新的SOTA CNN模型。在本工作中，我们致力于缩小这一性能差距，并证明基于注意力机制的模型确实具备超越CNN的能力。我们发现，制约ViTs在ImageNet分类任务中表现的关键因素在于其在将细粒度特征有效编码至token表示方面效率较低。为解决该问题，我们提出了一种新颖的“远景注意力”（outlook attention）机制，并设计了一种简洁且通用的网络架构，称为视觉远景器（Vision Outlooker, VOLO）。与侧重于粗粒度全局依赖建模的自注意力机制不同，远景注意力能够高效地将更细粒度的特征与上下文信息融入token表示中，这一特性被证实对识别性能具有关键提升作用，但长期以来被自注意力机制所忽视。实验结果表明，我们的VOLO在ImageNet-1K分类任务上达到了87.1%的Top-1准确率，是首个在该竞争性基准上突破87%准确率的模型，且无需使用任何额外训练数据。此外，预训练的VOLO在下游任务中也表现出良好的迁移能力，例如在Cityscapes验证集上实现了84.3%的mIoU得分，在ADE20K验证集上达到54.3%的mIoU得分。代码已开源，地址为：\url{https://github.com/sail-sg/volo}。

源 PDF