Visualisierung von Daten mithilfe von t-SNE

Wir stellen eine neue Technik namens „t-SNE“ vor, die hochdimensionale Daten durch die Zuweisung eines Ortspunkt in einer zweidimensionalen oder dreidimensionalen Karte visuell darstellt. Die Methode ist eine Variante des Stochastic Neighbor Embedding (Hinton und Roweis, 2002), die wesentlich einfacher zu optimieren ist und durch eine reduzierte Neigung zur Ansammlung von Punkten im Zentrum der Karte deutlich verbesserte Visualisierungen erzeugt. t-SNE übertrifft bestehende Techniken bei der Erzeugung einer einzelnen Karte, die Strukturen auf mehreren unterschiedlichen Skalen offenlegt. Dies ist besonders wichtig für hochdimensionale Daten, die auf mehreren verschiedenen, aber verwandten, niedrigdimensionalen Mannigfaltigkeiten liegen, wie beispielsweise Bilder von Objekten mehrerer Klassen aus verschiedenen Blickwinkeln. Zur Visualisierung der Struktur sehr großer Datensätze zeigen wir, wie t-SNE zufällige Wege auf Nachbarschaftsgraphen nutzen kann, um die implizite Struktur aller Daten zu berücksichtigen, wenn eine Teilmenge der Daten dargestellt wird. Wir demonstrieren die Leistungsfähigkeit von t-SNE an einer Vielzahl von Datensätzen und vergleichen sie mit zahlreichen anderen nichtparametrischen Visualisierungstechniken, darunter Sammon-Mapping, Isomap und Locally Linear Embedding. Die von t-SNE erzeugten Visualisierungen sind auf fast allen untersuchten Datensätzen deutlich besser als diejenigen, die mit den anderen Verfahren erzielt werden.