T-Verteilung Stochastische Nachbareinbettung
T – Verteilte zufällige NachbareinbettungEs handelt sich um ein maschinelles Lernverfahren zur Dimensionsreduktion und kann zur Erkennung von Assoziationsmustern eingesetzt werden. Sein Hauptvorteil besteht darin, dass die lokale Struktur erhalten bleibt. Dies bedeutet, dass Punkte mit ähnlichen Abständen im hochdimensionalen Datenraum auch dann noch ähnlich sind, wenn sie in niedrige Dimensionen projiziert werden.
T-SNE-Funktionen
Im niedrigdimensionalen Raum können durch die Verwendung einer t-Verteilung mit einer stärkeren Long-Tail-Verteilung Überfüllungs- und Optimierungsprobleme vermieden werden.
T-SNE-Gradientenvorteil
- Bei unähnlichen Punkten wird eine kleinere Distanz verwendet, um einen größeren Gradienten zur Abstoßung der Punkte zu erzeugen.
- Diese Abstoßung ist nicht unendlich, um zu vermeiden, dass ungleiche Punkte zu weit voneinander entfernt sind.
T-SNE ist nicht genug
- T-SNE wird hauptsächlich zur Visualisierung verwendet und weist daher in anderen Bereichen, wie beispielsweise der Dimensionsreduzierung im Testsatz, eine schlechte Leistung auf. Da es keinen expliziten Schätzteil gibt, kann es nicht direkt auf den Testsatz reduziert werden.
- T-SNE neigt dazu, lokale Merkmale zu bewahren. Bei Datensätzen mit hohen intrinsischen Dimensionen ist es unmöglich, sie vollständig in einen zwei- bis dreidimensionalen Raum abzubilden.
- T-SNE verfügt nicht über eine eindeutige optimale Lösung oder einen Schätzteil. Um eine Schätzung vorzunehmen, müssen Sie die Dimensionsreduzierung berücksichtigen und dann ein Modell wie beispielsweise eine Regressionsgleichung erstellen.
- Das Training ist zu langsam und viele baumbasierte Algorithmen werden auf T-SNE verbessert.