17 天前

VOLO:面向视觉识别的视觉展望器

Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
VOLO:面向视觉识别的视觉展望器
摘要

多年来,视觉识别领域一直由卷积神经网络(CNNs)主导。尽管近期主流的视觉Transformer(ViTs)在ImageNet分类任务中展现出基于自注意力机制模型的巨大潜力,但在未使用额外数据的情况下,其性能仍不及最新的SOTA CNN模型。在本工作中,我们致力于缩小这一性能差距,并证明基于注意力机制的模型确实具备超越CNN的能力。我们发现,制约ViTs在ImageNet分类任务中表现的关键因素在于其在将细粒度特征有效编码至token表示方面效率较低。为解决该问题,我们提出了一种新颖的“远景注意力”(outlook attention)机制,并设计了一种简洁且通用的网络架构,称为视觉远景器(Vision Outlooker, VOLO)。与侧重于粗粒度全局依赖建模的自注意力机制不同,远景注意力能够高效地将更细粒度的特征与上下文信息融入token表示中,这一特性被证实对识别性能具有关键提升作用,但长期以来被自注意力机制所忽视。实验结果表明,我们的VOLO在ImageNet-1K分类任务上达到了87.1%的Top-1准确率,是首个在该竞争性基准上突破87%准确率的模型,且无需使用任何额外训练数据。此外,预训练的VOLO在下游任务中也表现出良好的迁移能力,例如在Cityscapes验证集上实现了84.3%的mIoU得分,在ADE20K验证集上达到54.3%的mIoU得分。代码已开源,地址为:\url{https://github.com/sail-sg/volo}。

VOLO:面向视觉识别的视觉展望器 | 最新论文 | HyperAI超神经