
摘要
无标签原始图像的聚类是一项极具挑战性的任务,近年来已有部分深度学习方法取得了一定进展。本文提出一种无监督聚类框架——多模态深度聚类(Multi-Modal Deep Clustering, MMDC),该框架以端到端的方式学习深度神经网络,能够直接输出图像的聚类分配结果,无需后续额外处理。MMDC通过训练深度网络,使其图像嵌入(embedding)与高斯混合模型(Gaussian Mixture Model, GMM)分布中采样的目标点对齐,进而根据图像嵌入与GMM各分量的关联关系确定聚类归属。同时,该深度网络还被用于执行一个额外的自监督任务——预测图像的旋转角度。这一设计促使网络学习到更具语义意义的图像表征,从而进一步提升聚类性能。实验结果表明,MMDC在六个具有挑战性的基准数据集上达到或超越了当前最先进的性能水平。在自然图像数据集上,相较于以往方法,其性能提升显著,最高达20个百分点的绝对准确率增益:在CIFAR-10上达到82%的准确率,CIFAR-100上达到45%,STL-10上达到69%。