Interpretierbare Visualisierungen mit differenzierenden Embedding-Netzwerken

Wir stellen einen Visualisierungsalgorithmus vor, der auf einem neuartigen, unsupervisierten Trainingsregime und einer speziellen Verlustfunktion für Siamese neuronale Netze basiert, namens Differentiating Embedding Networks (DEN). Das Siamese neuronale Netzwerk identifiziert zwischen spezifischen Datensatzpaaren unterschiedliche oder ähnliche Merkmale und nutzt diese Merkmale, um den Datensatz in einen niedrigdimensionalen Raum einzubetten, in dem er visualisiert werden kann. Im Gegensatz zu bestehenden Visualisierungsmethoden wie UMAP oder $t$-SNE ist DEN parametrisch, was bedeutet, dass es mittels Techniken wie SHAP interpretierbar ist. Um DEN zu interpretieren, entwickeln wir einen end-to-end parametrischen Clustering-Algorithmus auf Basis der Visualisierung und nutzen anschließend SHAP-Werte, um zu bestimmen, welche Merkmale im Merkmalsraum für das Verständnis der in der Visualisierung sichtbaren Strukturen aufgrund der gefundenen Cluster entscheidend sind. Wir vergleichen DEN-Visualisierungen mit etablierten Verfahren an einer Vielzahl von Datensätzen, darunter Bilddaten und scRNA-seq-Daten. Anschließend zeigen wir, dass unser Clustering-Algorithmus trotz fehlender Vorinformation über die Anzahl der Cluster vergleichbare Leistung wie die aktuell beste Methode erzielt und auf FashionMNIST eine neue state-of-the-art-Leistung erreicht. Schließlich demonstrieren wir die Identifizierung differenzierender Merkmale eines Datensatzes. Der Quellcode ist unter https://github.com/isaacrob/DEN verfügbar.