HyperAIHyperAI
vor 2 Monaten

Ein internes Clustergültigkeitsindex unter Verwendung eines distanzbasierten Trennbarkeitsmaßes

Shuyue Guan; Murray Loew
Ein internes Clustergültigkeitsindex unter Verwendung eines distanzbasierten Trennbarkeitsmaßes
Abstract

Die Bewertung von Clusternergebnissen ist ein wesentlicher Bestandteil der Clusteranalyse. Bei typischer unüberwachter Lernmethode gibt es keine wahren Klassifikationslabels für das Clustern. Daher wurden eine Reihe interner Evaluationsmethoden entwickelt, die vorhergesagte Labels und Daten verwenden. Diese werden auch als interne Gültigkeitsindizes für Clusters (CVIs) bezeichnet. Ohne wahre Labels ist die Entwicklung eines effektiven CVI nicht einfach, da dies vergleichbar ist mit der Erstellung einer Clustermethode. Zudem ist es entscheidend, mehrere CVIs zu haben, da es keinen universellen CVI gibt, der für alle Datensätze geeignet ist, und keine spezifische Methode zur Auswahl eines geeigneten CVIs für Clusters ohne wahre Labels existiert. Deshalb ist es notwendig, mehrere CVIs anzuwenden, um Clusternergebnisse zu bewerten. In dieser Arbeit schlagen wir einen neuen CVI vor – den distanzbasierten Trennbarkeitsindex (DSI) – basierend auf einer Maßzahl für die Trennbarkeit von Daten. Wir haben den DSI zusammen mit acht anderen internen CVIs angewendet, darunter frühe Studien von Dunn (1974) bis hin zu den neuesten Studien CVDD (2019), um Vergleiche durchzuführen. Für die Bewertung der Clusternergebnisse von fünf Clusteringalgorithmen auf 12 realen und 97 synthetischen Datensätzen dient ein externer CVI als Ground Truth. Die Ergebnisse zeigen, dass der DSI ein effektiver, einzigartiger und wettbewerbsfähiger CVI im Vergleich zu den anderen betrachteten CVIs ist. Darüber hinaus haben wir den allgemeinen Prozess zur Bewertung von CVIs zusammengefasst und eine neue Methode – den Rangunterschied – entwickelt, um die Ergebnisse der CVIs zu vergleichen.

Ein internes Clustergültigkeitsindex unter Verwendung eines distanzbasierten Trennbarkeitsmaßes | Neueste Forschungsarbeiten | HyperAI