17 天前

DeiT III:ViT的复仇

Hugo Touvron, Matthieu Cord, Hervé Jégou
DeiT III:ViT的复仇
摘要

视觉Transformer(Vision Transformer, ViT)是一种结构简洁的神经网络架构,适用于多种计算机视觉任务。与近年来引入输入数据或特定任务先验知识的架构不同,ViT本身具备有限的内置架构先验。近期研究表明,ViT在自监督预训练下表现优异,尤其是类似于BERT的预训练方法(如BeiT)。本文重新审视了ViT的监督训练策略。我们的方法基于并简化了一种用于训练ResNet-50的训练方案,引入了一种仅包含三种数据增强操作的新策略,更贴近自监督学习中的实际实践。在图像分类(包括在ImageNet-1k上是否使用ImageNet-21k预训练)、迁移学习以及语义分割等任务上的评估表明,该方法显著优于以往针对ViT的全监督训练方案。此外,实验结果还表明,采用监督训练方式获得的ViT性能可与近期更先进的架构相媲美。本研究的结果可为基于ViT的最新自监督方法提供更优的基准参考。