
摘要
我们提出了一种通用的方法,通过利用预训练的特征提取器,在无需标签的情况下实现图像分类。该方法基于一个关键观察:在预训练特征空间中,彼此最近邻的样本很可能具有相同的类别标签。我们通过自蒸馏训练聚类头来实现这一目标,并提出了一种新颖的目标函数,该函数通过引入一种变体的点互信息(pointwise mutual information)并结合实例加权机制,学习图像特征之间的关联关系。实验表明,所提出的目标函数能够有效抑制错误正样本对(false positive pairs)的负面影响,同时高效地利用预训练特征空间中的结构信息。在17种不同的预训练模型上,我们的方法相较于传统的k-means聚类,在ImageNet和CIFAR100数据集上的聚类准确率分别提升了6.1%和12.2%。最后,结合自监督视觉Transformer模型,我们在ImageNet数据集上实现了61.6%的聚类准确率。相关代码已开源,地址为:https://github.com/HHU-MMBS/TEMI-official-BMVC2023。