2 个月前
DeiT-LT 蒸馏方法在长尾数据集上训练视觉变换器时重获优势
Harsh Rangwani; Pradipto Mondal; Mayank Mishra; Ashish Ramayee Asokan; R. Venkatesh Babu

摘要
视觉变换器(Vision Transformer, ViT)已成为多种计算机视觉任务中的重要架构。在ViT中,我们将输入图像划分为补丁标记(patch tokens),并通过一系列自注意力块进行处理。然而,与卷积神经网络(Convolutional Neural Networks, CNN)不同,ViT的简单架构缺乏有效的归纳偏置(例如局部性等)。因此,ViT需要大量的数据来进行预训练。为了在平衡数据集上有效训练ViT,已经提出了各种数据高效的方法(如DeiT)。然而,关于如何在长尾不平衡数据集上使用ViT的研究相对较少。在这项工作中,我们引入了DeiT-LT来解决从头开始在长尾数据集上训练ViT的问题。在DeiT-LT中,我们通过使用分布外图像和重新加权蒸馏损失来增强对尾类的关注,从而提出了一种高效且有效的方式从CNN进行蒸馏。这使得早期的ViT块能够学习到类似于局部性的CNN特征,提高了对尾类的泛化能力。此外,为了解决过拟合问题,我们建议从一个平坦的CNN教师模型进行蒸馏,从而在整个ViT块中学习低秩可泛化的特征。通过所提出的DeiT-LT方案,蒸馏DIST标记成为尾类的专家,而分类器CLS标记则成为头类的专家。这些专家有助于在同一ViT架构内使用不同的标记集合有效地学习多数类和少数类对应的特征。我们在从小规模CIFAR-10 LT到大规模iNaturalist-2018的数据集上展示了DeiT-LT从头开始训练ViT的有效性。