2 个月前

基于距离的可分离性度量的内部聚类有效性指数

Shuyue Guan; Murray Loew
基于距离的可分离性度量的内部聚类有效性指数
摘要

评估聚类结果是聚类分析的重要组成部分。在典型的无监督学习中,聚类没有真实的类别标签。因此,已经创建了许多内部评估方法,这些方法利用预测的标签和数据进行评估。它们也被称为内部聚类有效性指数(CVIs)。由于缺乏真实标签,设计有效的CVI并非易事,因为这类似于创建一种聚类方法。此外,拥有更多的CVI至关重要,因为没有一种通用的CVI可以用于衡量所有数据集,也没有特定的方法来选择适用于没有真实标签的聚类的有效性指数。因此,应用多种CVI来评估聚类结果是必要的。在本文中,我们提出了一种新的CVI——基于距离的可分离性指数(Distance-based Separability Index, DSI),该指数基于数据可分离性的度量。我们将DSI与其他八种内部CVI进行了比较,包括从Dunn(1974年)早期研究到最近的CVDD(2019年)研究。我们使用外部CVI作为五个聚类算法在12个实际数据集和97个合成数据集上的聚类结果的真实基准。结果显示,DSI是一种有效、独特且具有竞争力的CVI,与其他被比较的CVI相比表现优异。此外,我们总结了评估CVI的一般过程,并创建了一种新的方法——排名差异法——来比较不同CVI的结果。

基于距离的可分离性度量的内部聚类有效性指数 | 最新论文 | HyperAI超神经