12 天前

生成对抗聚类网络的平衡自 paced 学习

{ Heng Huang, Cheng Deng, Xiaoqian Wang, Kamran Ghasedi}
生成对抗聚类网络的平衡自 paced 学习
摘要

聚类是机器学习众多应用中的一个关键问题,但在处理复杂的真实数据时仍面临巨大挑战。现有的聚类算法要么采用浅层模型,其表达能力不足,难以捕捉数据的非线性特征;要么采用深层模型,但参数量庞大,容易发生过拟合。本文提出了一种深度生成对抗聚类网络(Deep Generative Adversarial Clustering Network, ClusterGAN),旨在以无监督方式有效训练深层聚类模型。ClusterGAN由三个网络组成:判别器(discriminator)、生成器(generator)和聚类器(clusterer,即聚类网络)。我们设计了一个三者之间的对抗博弈机制:生成器利用具有判别性的潜在变量合成逼真的样本,而聚类器则学习从真实样本到判别性嵌入空间的逆映射。此外,我们引入了一种条件熵最小化损失函数,以增强簇内样本的相似性、降低簇间样本的相似性。由于聚类任务中真实相似性标签未知,我们提出了一种新颖的平衡自步学习(balanced self-paced learning)算法,能够从简单样本逐步向困难样本推进训练过程,同时兼顾来自所有簇的样本多样性。因此,本方法通过结合所提出的对抗博弈机制与平衡自步学习策略,实现了对深层聚类器的高效训练。实验结果表明,ClusterGAN在多个数据集上取得了与当前最先进的聚类和哈希模型相媲美的性能。

生成对抗聚类网络的平衡自 paced 学习 | 最新论文 | HyperAI超神经