6 个月前

摘要

聚类是指在不依赖预定义标签的情况下，将相似的数据样本聚集到同一簇中的任务。该问题在机器学习领域已被广泛研究，近年来深度学习的进展重新激发了对该领域的关注。对比聚类（Contrastive Clustering, CC）模型是深度聚类中的核心方法之一，其通过数据增强技术为每个数据实例生成正样本对与负样本对，旨在学习一个特征空间，使得正样本对在实例级别和簇级别上的表示能够相互靠近。尽管此类方法在提升当前最优性能（SOTA）方面取得了进展，但它们普遍忽略了跨实例之间的模式关系，而这些关系对于进一步提升聚类效果具有关键意义。忽略这些关系会导致模型的假负样本对比例上升，同时降低真正样本对的识别率。本文提出一种新型对比聚类方法——跨实例引导的对比聚类（Cross-instance guided Contrastive Clustering, C3），该方法通过建模样本间的跨样本关联关系，有效增加正样本对的数量，并缓解假负样本、噪声样本及异常样本对学习到的数据表示所产生的负面影响。具体而言，我们设计了一种新的损失函数，利用实例级别的表示来识别相似样本，并促使它们在特征空间中聚集。此外，我们提出一种新颖的负样本加权策略，以更高效地选择负样本。大量实验评估表明，所提方法在多个基准计算机视觉数据集上均显著优于现有先进算法：在CIFAR-10、CIFAR-100、ImageNet-10、ImageNet-Dogs和Tiny-ImageNet数据集上，聚类准确率分别提升了6.6%、3.3%、5.0%、1.3%和0.3%。

源 PDF