
摘要
样本之间的相似性和聚类之间的差异是图像聚类中的两个关键方面。然而,当前的深度聚类方法在特征相似度或语义差异的估计上存在不准确的问题。本文提出了一种基于语义伪标签的图像聚类框架(Semantic Pseudo-labeling-based Image Clustering, SPICE),该框架将聚类网络分为用于测量实例级相似性的特征模型和用于识别聚类级差异的聚类头。我们设计了两种语义感知的伪标签算法:原型伪标签算法和可靠伪标签算法,这些算法使得在聚类过程中能够实现准确且可靠的自我监督。无需使用任何真实标签,我们通过三个阶段优化聚类网络:1)通过对比学习训练特征模型以测量实例相似性;2)使用原型伪标签算法训练聚类头以识别聚类语义;3)联合使用可靠伪标签算法训练特征模型和聚类头,以提高聚类性能。大量的实验结果表明,SPICE 在六个图像基准数据集上的三种流行指标上显著优于现有方法(约10%的提升),并建立了新的最先进聚类结果。尤为重要的是,SPICE 显著缩小了无监督分类与全监督分类之间的差距;例如,在 CIFAR-10 数据集上,其准确率仅相差2%(91.8%对93.8%)。我们的代码已公开发布在 https://github.com/niuchuangnn/SPICE。