Hierarchische Nearest-Neighbor-Graph-Embedding für eine effiziente Dimensionsreduzierung

Die Dimensionsreduktion ist sowohl für die Visualisierung als auch für die Vorverarbeitung hochdimensionaler Daten im Bereich des maschinellen Lernens von entscheidender Bedeutung. Wir stellen eine neuartige Methode vor, die auf einer Hierarchie basiert, die auf 1-Nächste-Nachbar-Graphen im ursprünglichen Raum aufgebaut ist und dazu dient, die Gruppeneigenschaften der Datenausbreitung auf mehreren Ebenen zu erhalten. Der Kern des Vorschlags ist eine optimierungsfreie Projektion, die in Bezug auf Leistung und Qualität der Visualisierung mit den neuesten Versionen von t-SNE und UMAP konkurrieren kann, gleichzeitig jedoch um eine Größenordnung schneller in der Ausführungszeit ist. Darüber hinaus zeichnet sich die Methode durch ihre interpretierbaren Mechanismen, die Fähigkeit, neue Daten zu projizieren, sowie die natürliche Trennung von Datengruppen in Visualisierungen aus, was sie zu einer allgemein verwendbaren, unsupervisierten Dimensionsreduktionsmethode macht. In der Arbeit begründen wir die Stichhaltigkeit des vorgeschlagenen Ansatzes und evaluieren ihn an einer vielfältigen Sammlung von Datensätzen mit Größen zwischen 1.000 und 11 Mio. Proben und Dimensionen von 28 bis 16.000. Wir vergleichen die Methode mit anderen state-of-the-art-Verfahren anhand mehrerer Metriken und Zieldimensionen und unterstreichen dabei ihre Effizienz und Leistungsfähigkeit. Der Quellcode ist unter https://github.com/koulakis/h-nne verfügbar.