Regroupement Hiérarchique
Le clustering hiérarchique est un ensemble d'algorithmes qui forment des clusters imbriqués en fusionnant continuellement de bas en haut ou en divisant continuellement de haut en bas. Cette classe hiérarchique est représentée par un « dendrogramme », et l'algorithme de clustering agglomératif en fait partie.
Le clustering hiérarchique tente de diviser les données d'échantillon à différents « niveaux » et de les regrouper couche par couche. Dans l'arbre de clustering, les points de données d'origine des différentes catégories se trouvent au bas de l'arbre et le nœud racine d'un cluster est la couche supérieure de l'arbre.
Classification du clustering hiérarchique
Il existe actuellement deux méthodes pour créer des arbres de clustering : la fusion ascendante et la division descendante.
L'algorithme de fusion du clustering hiérarchique calcule principalement la similarité entre deux types de points de données, combine les deux points de données les plus similaires parmi tous les points de données et effectue une itération répétée. En termes simples, l’algorithme détermine la similarité en calculant la distance entre les points de données. Plus la distance est petite, plus la similarité est élevée. Les deux points de données ou catégories avec la distance la plus proche sont combinés pour générer un arbre de clustering.