Distribution T, Intégration Stochastique Des Voisins
T – Incorporation de voisins aléatoires distribuésIl s’agit d’une méthode d’apprentissage automatique pour la réduction de la dimensionnalité et peut être utilisée pour identifier des modèles d’association. Son principal avantage est qu’il préserve la structure locale. Cela signifie que les points avec des distances similaires dans un espace de données de grande dimension sont toujours similaires lorsqu'ils sont projetés dans des dimensions faibles.
Caractéristiques du T-SNE
Dans un espace de faible dimension, l'utilisation d'une distribution t avec une distribution à longue queue plus lourde peut éviter les problèmes d'encombrement et d'optimisation.
Avantage du gradient T-SNE
- Pour des points différents, une distance plus petite est utilisée pour générer un gradient plus grand pour repousser les points ;
- Cette répulsion n'augmente pas à l'infini pour éviter que des points dissemblables soient trop éloignés.
T-SNE ne suffit pas
- T-SNE est principalement utilisé pour la visualisation, il est donc peu performant dans d'autres aspects, tels que la réduction de dimensionnalité sur l'ensemble de test. Comme il n’y a pas de partie d’estimation explicite, elle ne peut pas être directement réduite sur l’ensemble de test.
- Le T-SNE tend à préserver les caractéristiques locales. Pour les ensembles de données ayant des dimensions intrinsèques élevées, il est impossible de les mapper entièrement dans un espace à 2 ou 3 dimensions.
- T-SNE ne possède pas de solution optimale unique ni de partie d'estimation. Pour faire une estimation, vous devez prendre en compte la réduction de la dimensionnalité, puis construire un modèle tel qu'une équation de régression.
- La formation est trop lente et de nombreux algorithmes basés sur les arbres sont améliorés sur T-SNE.