
摘要
图像聚类是一项极具挑战性的计算机视觉任务,其目标是在无监督条件下生成图像的标注。近年来的研究主要聚焦于在图像聚类中采用自监督学习策略,即先学习具有价值的语义表示,再对图像表征进行聚类。然而,这类多阶段算法显著增加了计算时间,且最终性能高度依赖于第一阶段的学习效果。为克服这一局限,本文在自监督学习框架的基础上,提出了一种新颖的单阶段聚类方法,能够同时学习有意义的图像表示并为其分配相应的聚类标签。该方法通过引入一个分类器网络,将离散表示集成到自监督学习范式中。具体而言,所提出的聚类目标函数基于互信息最大化,旨在增强集成的离散表示与一个离散概率分布之间的依赖关系。该离散概率分布通过自监督过程获得,即通过将学习到的隐式表示与一组可训练原型进行比较来构建。为进一步提升分类器的学习性能,本文在多尺度图像裁剪视图之间联合优化互信息。实验结果表明,所提出的框架在CIFAR-10和CIFAR-100/20数据集上分别取得了89.1%和49.0%的平均准确率,显著优于当前最先进的方法。此外,该方法对超参数设置表现出良好的鲁棒性,具备良好的可迁移性,可直接应用于其他数据集。