Git : Regroupement basé sur le graphe de topologie d'intensité

Précision, Robustesse face aux bruits et aux échelles, Interprétabilité, Vitesse et Facilité d'utilisation (ARISE) sont des exigences cruciales pour un bon algorithme de clustering. Cependant, atteindre simultanément ces objectifs est un défi, et la plupart des approches avancées ne se concentrent que sur certaines de ces aspects. Dans une perspective globale de ces considérations, nous proposons un nouvel algorithme de clustering, nommé GIT (Clustering Basé sur le Graphe de Topologie d'Intensité). GIT prend en compte à la fois les structures locales et globales des données : il forme d'abord des clusters locaux basés sur les pics d'intensité des échantillons, puis estime le graphe topologique global (topo-graphe) entre ces clusters locaux. Nous utilisons la distance de Wasserstein entre les proportions de classes prédites et a priori pour couper automatiquement les arêtes bruyantes dans le topo-graphe et fusionner les clusters locaux connectés en clusters finaux. Ensuite, nous comparons GIT à sept algorithmes concurrents sur cinq jeux de données synthétiques et neuf jeux de données réels. Avec une détection rapide des clusters locaux, une construction robuste du topo-graphe et un découpage précis des arêtes, GIT montre des performances attractives en termes d'ARISE et dépasse significativement les autres méthodes de clustering non convexes. Par exemple, GIT surpass ses homologues d'environ 10\% (score F1) sur MNIST et FashionMNIST. Le code source est disponible à l'adresse \color{red}{https://github.com/gaozhangyang/GIT}.