2 个月前
训练数据高效的图像变换器及通过注意力机制进行蒸馏
Touvron, Hugo ; Cord, Matthieu ; Douze, Matthijs ; Massa, Francisco ; Sablayrolles, Alexandre ; Jégou, Hervé

摘要
最近,纯基于注意力机制的神经网络在图像理解任务(如图像分类)中展现出了良好的效果。然而,这些视觉变压器通常需要使用昂贵的基础设施进行数亿张图像的预训练,这限制了它们的应用范围。在这项工作中,我们仅通过在ImageNet上训练,生成了一个具有竞争力且无卷积操作的变压器模型。我们使用单台计算机在不到3天的时间内完成了训练。我们的基准视觉变压器(8600万个参数)在ImageNet上实现了83.1%的单裁剪评估准确率,而未使用任何外部数据。更重要的是,我们引入了一种专为变压器设计的教师-学生策略。该策略依赖于一个蒸馏令牌(distillation token),确保学生模型通过注意力机制从教师模型中学习。我们展示了这种基于令牌的蒸馏方法的优势,特别是在使用卷积神经网络作为教师模型时。这使得我们在ImageNet上获得了与卷积神经网络相当的结果(最高达到85.2%的准确率),并且在迁移到其他任务时也表现出色。我们已共享了代码和模型。