2ヶ月前

距離に基づく分離度測定を使用した内部クラスタ有効性指数

Shuyue Guan; Murray Loew
距離に基づく分離度測定を使用した内部クラスタ有効性指数
要約

クラスタリング結果の評価は、クラスタ分析において重要な部分を占めています。典型的な非監督学習では、クラスタリングに真のクラスラベルが存在しません。したがって、予測ラベルとデータを使用する内部評価指標(Internal Evaluation Measures)が数多く開発されてきました。これらの指標は、内部クラスタ有効性指数(CVI: Cluster Validity Indices)とも呼ばれています。真のラベルがないため、効果的なCVIを設計することは簡単ではありません。これは、新しいクラスタリング手法を開発することと同様の難しさがあります。また、特定の方法で真のラベルがないクラスターに対して適切なCVIを選択する具体的な手段がないため、より多くのCVIを持つことが重要です。これにより、さまざまなデータセットに対して最適なCVIを選択できるようになります。本論文では、データ分離度に基づく新しいCVIである距離に基づく分離度指数(DSI: Distance-based Separability Index)を提案します。DSIは、Dunn (1974) から最新の研究 CVDD (2019) まで含む8つの他の内部CVIとともに比較のために適用されました。5つのクラスタリングアルゴリズムによる12の実際のデータセットと97の合成データセットのクラスタリング結果に対して、外部CVIを基準として使用しました。結果は、DSIが他の比較対象となるCVIに対して効果的で独自かつ競争力のあるCVIであることを示しています。さらに、CVIを評価する一般的なプロセスを要約し、新たな方法である順位差(Rank Difference)を作成してCVIの結果を比較しました。

距離に基づく分離度測定を使用した内部クラスタ有効性指数 | 最新論文 | HyperAI超神経