Command Palette
Search for a command to run...
GraPix: Untersuchung der Graphenmodularitäts-Optimierung für unüberwachtes Pixel-Clustering
GraPix: Untersuchung der Graphenmodularitäts-Optimierung für unüberwachtes Pixel-Clustering
Rashmi Dutta Baruah Arijit Sur Sonal Kumar
Zusammenfassung
Ein Vision-Transformer erlernt während des selbstüberwachten Trainings hochwertige Patch-Embeddings, die eine entscheidende Rolle bei vielen unsupervisierten Nachaufgaben wie Objektlokalisierung, Objektdetektion und spärlicher semantischer Segmentierung spielen. Solche Nachaufgaben nutzen verschiedene Eigenschaften des Patch-Ähnlichkeitsgraphen, um in einem unsupervisierten Setting Spitzenleistungen zu erzielen. Dennoch ist das wahre Potenzial des Patch-Ähnlichkeitsgraphen für die dichte semantische Segmentierung bisher noch nicht ausgeschöpft. Bisherige Arbeiten zeigen, dass Modularität eine wesentliche Eigenschaft eines Graphen ist, die die Stärke bestehender Graphpartitionen widerspiegelt. Wir argumentieren, dass eine gemeinsame Optimierung der Merkmalsclustering im Patch-Embedding-Raum und der Graph-Modularität im Knotenattribut-Raum zu einer glatteren Trainingskonvergenz führt und bessere Ergebnisse erzielt. In diesem Artikel stellen wir eine neuartige end-to-end unsupervised Lernmethode namens GraPix vor, die die verborgenen Eigenschaften der aus einem selbstüberwachten Vision-Transformer extrahierten Patch-Embeddings für die dichte semantische Segmentierung nutzt. GraPix konstruiert einen Affinitätsgraphen basierend auf den Ähnlichkeiten der Patch-Embeddings im Embedding-Raum. Anschließend lernt es hochdiskriminative Zentroid-Embeddings für die dichte semantische Segmentierung mittels unseres neuartigen Ziels, das sowohl Feature-Clustering als auch Graph-Modularität gemeinsam optimiert. Die experimentellen Ergebnisse zeigen, dass GraPix die bisher beste Methode auf dem SUIM-Datensatz übertrifft und auf dem Cityscapes-Datensatz die zweitbeste Leistung erzielt. Zudem führen wir eine detaillierte Ablationsstudie durch, um die Wahl der Modellkomponenten und Hyperparameter zu begründen. Der Quellcode ist unter https://github.com/SonalKumar95/GraPix verfügbar.