Tree-SNE : Clusterisation hiérarchique et visualisation à l’aide de t-SNE

La méthode t-SNE et la classification hiérarchique sont des approches courantes d’analyse exploratoire de données, en particulier en biologie. En s’appuyant sur les progrès récents permettant d’accélérer t-SNE et d’obtenir une structure plus fine, nous combinons ces deux méthodes pour proposer tree-SNE, un algorithme de clustering hiérarchique et de visualisation fondé sur des embeddings t-SNE unidimensionnels empilés. Nous introduisons également alpha-clustering, une méthode qui recommande l’affectation optimale des clusters sans nécessiter de connaître à l’avance le nombre de clusters, en s’appuyant sur la stabilité des clusters à différentes échelles. Nous démontrons l’efficacité de tree-SNE et d’alpha-clustering sur des images de chiffres manuscrits, des données de cytométrie de masse (CyTOF) issues de cellules sanguines, ainsi que sur des données de séquençage à l’unité cellulaire de l’ARN (scRNA-seq) provenant de cellules rétiniennes. En outre, pour valider la qualité de la visualisation, nous utilisons alpha-clustering afin d’obtenir des résultats de clustering non supervisé compétitifs avec l’état de l’art sur plusieurs jeux de données d’images. Le logiciel est disponible à l’adresse suivante : https://github.com/isaacrob/treesne.