2 个月前

将K均值聚类与层次聚类结合以识别一般形状的簇团

Anna D. Peterson; Arka P. Ghosh; Ranjan Maitra
将K均值聚类与层次聚类结合以识别一般形状的簇团
摘要

聚类将数据集划分为若干组,使得同一组内的观测值彼此相似,但与其他组的观测值不同。层次聚类和$K$-均值聚类是两种常用的方法,但它们各自具有不同的优缺点。例如,层次聚类可以识别树状结构中的组,但在大规模数据集中计算复杂度较高;而$K$-均值聚类虽然高效,但主要用于识别均匀分布的球形簇。本文提出了一种混合非参数聚类方法,结合了这两种方法的优点,能够识别一般形状的簇,并适用于更大规模的数据集。具体而言,我们首先使用$K$-均值聚类将数据集划分为球形组,然后利用层次聚类方法并以数据驱动的距离度量作为停止准则来合并这些组。该方法有潜力揭示数据集中的一般形状和结构。我们在多个模拟数据集和实际数据集上展示了其良好的性能。

将K均值聚类与层次聚类结合以识别一般形状的簇团 | 最新论文 | HyperAI超神经