2 个月前
自监督视觉变换器中的新兴特性
Mathilde Caron; Hugo Touvron; Ishan Misra; Hervé Jégou; Julien Mairal; Piotr Bojanowski; Armand Joulin

摘要
在本文中,我们探讨了自监督学习是否为视觉变换器(Vision Transformer,简称ViT)提供了相较于卷积网络(Convolutional Networks,简称Convnets)更为突出的新特性。除了将自监督方法应用于该架构特别有效这一事实外,我们还做出了以下观察:首先,自监督ViT特征包含关于图像语义分割的显式信息,而这种信息在监督下的ViT或Convnets中并不那么明显。其次,这些特征也是优秀的k近邻分类器,在小型ViT上达到了ImageNet数据集78.3%的Top-1准确率。我们的研究还强调了动量编码器、多裁剪训练以及使用小尺寸补丁对于ViT的重要性。我们将这些发现整合到一个简单的自监督方法中,称为DINO,可以将其解释为一种无标签的自我蒸馏形式。通过线性评估,我们展示了DINO与ViT之间的协同作用,在ImageNet数据集上使用ViT-Base模型达到了80.1%的Top-1准确率。