Verständnis der Funktionsweise von Dimensionsreduktionswerkzeugen: Ein empirischer Ansatz zur Entschlüsselung von t-SNE, UMAP, TriMAP und PaCMAP für die Datenvisualisierung

Verfahren zur Dimensionsreduktion (DR), wie t-SNE, UMAP und TriMAP, haben bei vielen realen Datensätzen beeindruckende Leistungen in der Visualisierung erbracht. Eine stets bestehende Herausforderung dieser Methoden ist das Spannungsverhältnis zwischen der Erhaltung der globalen Struktur und der Erhaltung der lokalen Struktur: Diese Verfahren können entweder eine oder die andere, aber nicht beide Strukturen gleichzeitig gut bewahren. Ziel dieser Arbeit ist es, diejenigen Aspekte von DR-Methoden zu verstehen, die entscheidend für die gleichzeitige Erhaltung lokaler und globaler Strukturen sind – eine Verbesserung solcher Methoden ist nur möglich, wenn wir ein fundiertes Verständnis der in unseren Algorithmen getroffenen Entscheidungen und ihrer empirischen Auswirkungen auf die niedrigdimensionalen Embeddings besitzen. In Bezug auf die Erhaltung lokaler Strukturen leiten wir aufgrund unserer neuen Einsicht in die Mechanismen erfolgreicher DR-Methoden mehrere nützliche Gestaltungsprinzipien für DR-Verlustfunktionen ab. In Bezug auf die Erhaltung globaler Strukturen zeigt unsere Analyse, dass die Wahl der zu bewahrenden Komponenten von entscheidender Bedeutung ist. Wir nutzen diese Erkenntnisse, um einen neuen DR-Algorithmus zu entwerfen, namens Pairwise Controlled Manifold Approximation Projection (PaCMAP), der sowohl lokale als auch globale Strukturen bewahrt. Unsere Arbeit liefert mehrere überraschende Einsichten darüber, welche Gestaltungsentscheidungen bei der Entwicklung von DR-Algorithmen getroffen und welche zu vermeiden sind.