
摘要
近年来,众多无监督深度学习方法被提出,旨在利用无标签数据进行聚类学习。大多数最新方法通过引入数据增强,从“原始图像与其变换版本应具有相似语义聚类分配”的视角来研究深度聚类。然而,由于Softmax函数仅对最大值敏感,即使样本被分配至同一聚类,其表示特征也可能存在显著差异,这会导致表示特征空间中类内差异过大,进而引发局部最优解不稳定,从而损害聚类性能。为解决这一缺陷,本文提出了一种新型方法——深度鲁棒聚类(Deep Robust Clustering, DRC)。与现有方法不同,DRC从语义聚类分配与表示特征两个维度共同优化聚类过程,能够同时提升类间差异性并降低类内差异性。此外,本文深入分析了互信息与对比学习之间的内在联系,总结出一个通用框架,可将任意最大化互信息的目标转化为最小化对比损失的形式,并成功将其应用于DRC中,以学习具有不变性的特征和鲁棒的聚类结果。在六个广泛使用的深度聚类基准数据集上的大量实验表明,DRC在聚类稳定性和准确率方面均显著优于现有方法。例如,在CIFAR-10数据集上,DRC取得了71.6%的平均准确率,较当前最优结果提升了7.1个百分点。