Visualisation des données à l’aide de t-SNE

Nous présentons une nouvelle technique appelée « t-SNE » qui visualise des données de haute dimension en attribuant à chaque point de données une position dans une carte à deux ou trois dimensions. Cette méthode constitue une variante de l’Embedding stochastique des voisins (Hinton et Roweis, 2002), plus facile à optimiser et qui produit des visualisations nettement améliorées en réduisant la tendance à regrouper les points au centre de la carte. Le t-SNE se distingue des méthodes existantes par sa capacité à générer une seule carte révélant des structures à de multiples échelles. Ce point est particulièrement crucial pour des données de haute dimension qui se situent sur plusieurs variétés basses dimensions interconnectées, telles que des images d’objets appartenant à différentes classes, observés sous divers angles. Pour visualiser la structure de très grands ensembles de données, nous montrons comment le t-SNE peut utiliser des marches aléatoires sur des graphes de voisinage afin que la structure implicite de l’ensemble des données influence la représentation d’un sous-ensemble. Nous illustrons les performances du t-SNE sur une large gamme de jeux de données et le comparons à de nombreuses autres techniques non paramétriques de visualisation, notamment la projection de Sammon, Isomap et l’Embedding linéaire local. Les visualisations obtenues par t-SNE sont nettement supérieures à celles produites par les autres méthodes sur presque tous les jeux de données.