Git: Clustern auf Basis der Intensitätstopologie

Genauigkeit, Robustheit gegenüber Rauschen und Skalen, Interpretierbarkeit, Geschwindigkeit und Benutzerfreundlichkeit (ARISE) sind entscheidende Anforderungen an einen guten Clusteralgorithmus. Die gleichzeitige Erfüllung dieser Ziele ist jedoch herausfordernd, und die meisten fortschrittlichen Ansätze konzentrieren sich nur auf Teile davon. Im Hinblick auf eine umfassende Berücksichtigung dieser Aspekte schlagen wir einen neuen Clusteralgorithmus vor, nämlich GIT (Clustering basierend auf dem \textbf{G}raph der \textbf{I}ntensitäts-\textbf{T}opologie).GIT berücksichtigt sowohl lokale als auch globale Datenstrukturen: zunächst werden lokale Cluster basierend auf den Intensitätsspitzen der Stichproben gebildet, danach wird das globale topologische Graph (Topograph) zwischen diesen lokalen Clustern geschätzt. Wir verwenden den Wasserstein-Abstand zwischen den vorhergesagten und a priori Klassenverhältnissen, um automatisch rauschbehaftete Kanten im Topograph zu entfernen und verbundene lokale Cluster zu finalen Clustern zusammenzuführen. Anschließend vergleichen wir GIT mit sieben Wettbewerbsalgorithmen anhand von fünf synthetischen Datensätzen und neun realen Datensätzen. Dank schneller lokaler Clustererkennung, robuster Topographkonstruktion und präziser Kantenschneidung zeigt GIT attraktive ARISE-Leistungen und übertrifft signifikant andere nicht-konvexe Clusterverfahren. Zum Beispiel erreicht GIT etwa 10\% bessere Ergebnisse (F1-Score) als seine Konkurrenten bei MNIST und FashionMNIST. Der Quellcode ist unter \color{red}{https://github.com/gaozhangyang/GIT} verfügbar.