HyperAIHyperAI
il y a 2 mois

Fusion de $K$-means avec le clustering hiérarchique pour l'identification de groupes de formes générales

Anna D. Peterson; Arka P. Ghosh; Ranjan Maitra
Fusion de $K$-means avec le clustering hiérarchique pour l'identification de groupes de formes générales
Résumé

Le regroupement (clustering) partitionne un ensemble de données de telle manière que les observations placées ensemble dans un groupe soient similaires mais différentes de celles des autres groupes. Le regroupement hiérarchique et le regroupement par $K$-moyennes sont deux approches qui présentent des forces et des faiblesses différentes. Par exemple, le regroupement hiérarchique identifie les groupes dans une structure arborescente mais souffre d'une complexité algorithmique importante pour les grands ensembles de données, tandis que le regroupement par $K$-moyennes est efficace mais conçu pour identifier des clusters homogènes et sphériques. Nous présentons une approche hybride non paramétrique de regroupement qui combine ces deux méthodes afin d'identifier des clusters de formes générales et qui peut être appliquée à des ensembles de données plus importants. Plus précisément, nous partitionnons d'abord l'ensemble de données en groupes sphériques à l'aide du regroupement par $K$-moyennes. Ensuite, nous fusionnons ces groupes en utilisant des méthodes hiérarchiques avec une mesure de distance basée sur les données comme critère d'arrêt. Notre proposition a le potentiel de révéler des groupes ayant des formes et structures générales au sein d'un ensemble de données. Nous démontrons une bonne performance sur plusieurs ensembles de données simulés et réels.