Un indice de validité interne des clusters utilisant une mesure de séparabilité basée sur la distance

L'évaluation des résultats de clustering est une partie importante de l'analyse de clustering. Dans l'apprentissage non supervisé typique, il n'existe pas de véritables étiquettes de classe pour le clustering. Par conséquent, un certain nombre d'évaluations internes, qui utilisent les étiquettes prédites et les données, ont été développées. Ces évaluations sont également appelées indices de validité interne des clusters (CVIs). Sans véritables étiquettes, la conception d'un CVI efficace n'est pas simple car elle ressemble à la création d'une méthode de clustering. De plus, disposer de plus de CVIs est crucial car il n'existe pas d'indice universel qui puisse être utilisé pour mesurer tous les ensembles de données, et il n'y a pas de méthode spécifique pour sélectionner un CVI approprié pour les clusters sans véritables étiquettes. Par conséquent, il est nécessaire d'appliquer davantage de CVIs pour évaluer les résultats du clustering. Dans cet article, nous proposons un nouveau CVI appelé Indice de Séparabilité Basé sur la Distance (DSI), basé sur une mesure de séparabilité des données. Nous avons appliqué le DSI ainsi que huit autres CVIs internes, incluant des études préliminaires de Dunn (1974) jusqu'aux études les plus récentes comme le CVDD (2019), afin d'établir une comparaison. Nous avons utilisé un CVI externe comme vérité terrain pour évaluer les résultats du clustering obtenus par cinq algorithmes de clustering sur 12 ensembles de données réels et 97 ensembles de données synthétiques. Les résultats montrent que le DSI est un indice efficace, unique et compétitif par rapport aux autres CVIs comparés. En outre, nous avons résumé le processus général d'évaluation des CVIs et créé une nouvelle méthode - la différence de rang - pour comparer les résultats des CVIs.