HyperAIHyperAI
vor 2 Monaten

Die Kombination von $K$-Means mit hierarchischem Clustering zur Identifikation allgemein geformter Gruppen

Anna D. Peterson; Arka P. Ghosh; Ranjan Maitra
Die Kombination von $K$-Means mit hierarchischem Clustering zur Identifikation allgemein geformter Gruppen
Abstract

Clustering unterteilt einen Datensatz so, dass Beobachtungen, die in eine Gruppe zusammengefasst werden, sich ähnlich sind, aber von denen in anderen Gruppen abweichen. Hierarchisches Clustering und $K$-Means-Clustering sind zwei Ansätze, die jedoch unterschiedliche Stärken und Schwächen aufweisen. Zum Beispiel identifiziert hierarchisches Clustering Gruppen in einer baumartigen Struktur, leidet aber an rechnerischer Komplexität bei großen Datensätzen. $K$-Means-Clustering hingegen ist effizient, wurde aber entwickelt, um homogene kugelförmige Cluster zu erkennen. Wir präsentieren einen hybriden nichtparametrischen Clustering-Ansatz, der beide Methoden kombiniert, um allgemeine Clusterformen zu identifizieren und auf größere Datensätze angewendet werden kann. Insbesondere partitionieren wir den Datensatz zunächst in kugelförmige Gruppen mithilfe von $K$-Means. Anschließend fusionieren wir diese Gruppen unter Verwendung hierarchischer Methoden mit einem datengesteuerten Distanzmaß als Abbruchkriterium. Unser Vorschlag hat das Potenzial, Gruppen mit allgemeinen Formen und Strukturen in einem Datensatz zu enthüllen. Wir demonstrieren gute Leistung auf mehreren simulierten und realen Datensätzen.