2 个月前

基于强度拓扑图的聚类方法

Zhangyang Gao; Haitao Lin; Cheng Tan; Lirong Wu; Stan. Z Li
基于强度拓扑图的聚类方法
摘要

精确性、对噪声和尺度的鲁棒性、可解释性、速度以及易用性(ARISE) 是优秀聚类算法的关键要求。然而,同时实现这些目标具有挑战性,大多数先进的方法仅关注其中的一部分。为了全面考虑这些方面,我们提出了一种新的聚类算法,即基于强度拓扑图的聚类算法(GIT, Clustering Based on Graph of Intensity Topology)。GIT 考虑了局部和全局数据结构:首先根据样本的强度峰值形成局部聚类,然后估计这些局部聚类之间的全局拓扑图(topo-graph)。我们利用预测类别比例与先验类别比例之间的 Wasserstein 距离自动剪切 topo-graph 中的噪声边,并将连接的局部聚类合并为最终聚类。随后,我们将 GIT 与七种竞争算法在五个合成数据集和九个真实世界数据集上进行了比较。凭借快速的局部聚类检测、稳健的 topo-graph 构建以及准确的边剪切,GIT 展现了出色的 ARISE 性能,并显著超越了其他非凸聚类方法。例如,在 MNIST 和 FashionMNIST 数据集上,GIT 的 F1 分数比其他方法高出约 10%。代码可在以下链接获取:https://github.com/gaozhangyang/GIT。

基于强度拓扑图的聚类方法 | 最新论文 | HyperAI超神经