Comprendre le fonctionnement des outils de réduction de dimension : une approche empirique pour décrypter t-SNE, UMAP, TriMAP et PaCMAP pour la visualisation des données

Les techniques de réduction de dimension (DR) telles que t-SNE, UMAP et TriMAP ont démontré des performances remarquables en visualisation sur de nombreux jeux de données du monde réel. Une tension persistante rencontrée par ces méthodes réside dans le compromis entre la préservation de la structure globale et celle de la structure locale : ces algorithmes peuvent préserver l'une ou l'autre, mais pas les deux simultanément. Dans ce travail, notre objectif principal est de comprendre quelles caractéristiques des méthodes de DR sont essentielles pour préserver à la fois la structure locale et la structure globale. Il est en effet difficile de concevoir une méthode améliorée sans une compréhension approfondie des choix algorithmiques effectués et de leur impact empirique sur les embeddings obtenus en basse dimension. En vue de préserver la structure locale, nous proposons plusieurs principes de conception utiles pour les fonctions de perte de DR, fondés sur notre nouvelle compréhension des mécanismes sous-jacents aux méthodes de DR performantes. En ce qui concerne la préservation de la structure globale, notre analyse met en évidence l'importance du choix des composantes à préserver. Nous exploitons ces insights pour concevoir un nouvel algorithme de DR, appelé Pairwise Controlled Manifold Approximation Projection (PaCMAP), qui préserve à la fois la structure locale et la structure globale. Ce travail apporte plusieurs découvertes inattendues concernant les choix de conception à adopter – ou à éviter – lors de la construction d’algorithmes de réduction de dimension.