Intégration hiérarchique par graphe des voisins les plus proches pour une réduction de dimension efficace

La réduction de dimension est essentielle à la fois pour la visualisation et pour le prétraitement de données à haute dimension en vue d’apprentissage automatique. Nous proposons une nouvelle méthode fondée sur une hiérarchie construite à partir de graphes des plus proches voisins à 1 (1-nearest neighbor) dans l’espace original, permettant de préserver les propriétés de regroupement de la distribution des données à plusieurs niveaux. Le cœur de cette approche repose sur une projection sans optimisation, qui se montre compétitive avec les dernières versions de t-SNE et UMAP en termes de qualité de visualisation et de performance, tout en étant d’un ordre de grandeur plus rapide en temps d’exécution. En outre, ses mécanismes interprétables, sa capacité à projeter de nouvelles données et la séparation naturelle des clusters dans les visualisations en font une technique générale de réduction de dimension non supervisée. Dans cet article, nous justifions la solidité de la méthode proposée et l’évaluons sur une collection diverse de jeux de données, dont la taille varie de 1 000 à 11 millions d’échantillons, et la dimension de 28 à 16 000. Nous comparons les résultats avec d’autres méthodes de pointe sur plusieurs métriques et dimensions cibles, mettant ainsi en évidence son efficacité et ses performances. Le code est disponible à l’adresse suivante : https://github.com/koulakis/h-nne