2 个月前

DeiT-LT 蒸馏方法在长尾数据集上训练视觉变换器时重获优势

Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu

摘要

视觉变换器（Vision Transformer, ViT）已成为多种计算机视觉任务中的重要架构。在ViT中，我们将输入图像划分为补丁标记（patch tokens），并通过一系列自注意力块进行处理。然而，与卷积神经网络（Convolutional Neural Networks, CNN）不同，ViT的简单架构缺乏有效的归纳偏置（例如局部性等）。因此，ViT需要大量的数据来进行预训练。为了在平衡数据集上有效训练ViT，已经提出了各种数据高效的方法（如DeiT）。然而，关于如何在长尾不平衡数据集上使用ViT的研究相对较少。在这项工作中，我们引入了DeiT-LT来解决从头开始在长尾数据集上训练ViT的问题。在DeiT-LT中，我们通过使用分布外图像和重新加权蒸馏损失来增强对尾类的关注，从而提出了一种高效且有效的方式从CNN进行蒸馏。这使得早期的ViT块能够学习到类似于局部性的CNN特征，提高了对尾类的泛化能力。此外，为了解决过拟合问题，我们建议从一个平坦的CNN教师模型进行蒸馏，从而在整个ViT块中学习低秩可泛化的特征。通过所提出的DeiT-LT方案，蒸馏DIST标记成为尾类的专家，而分类器CLS标记则成为头类的专家。这些专家有助于在同一ViT架构内使用不同的标记集合有效地学习多数类和少数类对应的特征。我们在从小规模CIFAR-10 LT到大规模iNaturalist-2018的数据集上展示了DeiT-LT从头开始训练ViT的有效性。