
摘要
现有的深度聚类方法通常依赖于对比学习(contrastive)或非对比学习(non-contrastive)的表示学习来完成下游聚类任务。基于对比学习的方法通过负样本对(negative pairs)学习均匀的表示,从而提升聚类效果,但负样本对不可避免地引发类别碰撞(class collision)问题,进而损害聚类性能。相反,非对比学习方法虽可避免类别碰撞问题,但其生成的表示往往缺乏均匀性,容易导致聚类坍缩(clustering collapse)。为兼顾两者优势,本文提出一种新颖的端到端深度聚类方法——原型散射与正样本采样(Prototype Scattering and Positive Sampling, 简称 ProPos)。具体而言,本文首先通过最大化原型表示之间的距离,引入“原型散射损失”(prototype scattering loss),以增强表示的均匀性;其次,将某一实例的增强视图与另一视图中采样的邻近样本进行对齐——这些邻近样本在嵌入空间中被假设为真实的正样本对——以此提升簇内紧凑性,该策略称为“正样本采样对齐”(positive sampling alignment)。ProPos 的主要优势在于:有效避免类别碰撞问题,实现均匀的表示分布,获得良好分离的聚类结构,并保持簇内高度紧凑。通过在端到端的期望最大化(expectation-maximization)框架中优化 ProPos,大量实验结果表明,该方法在中等规模聚类基准数据集上取得了具有竞争力的性能,并在大规模数据集上达到了新的最先进水平。代码已开源,获取地址为:\url{https://github.com/Hzzone/ProPos}。