vor 16 Tagen

Parametrische UMAP-Einbettungen für Darstellung und halbüberwachtes Lernen

Tim Sainburg, Leland McInnes, Timothy Q Gentner

Abstract

UMAP ist ein nicht-parametrischer, graphenbasierter Algorithmus zur Dimensionsreduktion, der angewandte Riemannsche Geometrie und algebraische Topologie nutzt, um niedrigdimensionale Einbettungen strukturierter Daten zu finden. Der UMAP-Algorithmus besteht aus zwei Schritten: (1) Berechnung einer graphischen Darstellung eines Datensatzes (fuzziges simpliziales Komplex), und (2) Optimierung einer niedrigdimensionalen Einbettung des Graphen mittels stochastischem Gradientenabstieg. Hier erweitern wir den zweiten Schritt von UMAP auf eine parametrische Optimierung über Neuronale Netzwerk-Gewichte, wodurch eine parametrische Beziehung zwischen Daten und Einbettung gelernt wird. Zunächst zeigen wir, dass Parametric UMAP seiner nicht-parametrischen Variante in der Leistung gleichkommt, dabei jedoch den Vorteil einer gelernten parametrischen Abbildung bietet (z. B. schnelle Online-Einbettung neuer Daten). Anschließend untersuchen wir UMAP als Regularisierung, indem wir die latente Verteilung von Autoencodern einschränken, die Erhaltung der globalen Struktur parametrisch variieren und die Klassifiziergenauigkeit bei semi-supervised Learning verbessern, indem strukturelle Informationen in ungelabelten Daten erfasst werden. Google Colab-Workshop: https://colab.research.google.com/drive/1WkXVZ5pnMrm17m0YgmtoNjM_XHdnE5Vp?usp=sharing