Kontextbewusste Merkmalsgenerierung für Zero-shot-Semantische Segmentierung

Bestehende Modelle für semantische Segmentierung stützen sich stark auf dichte, pixelweise Annotationen. Um den Aufwand bei der Annotation zu verringern, konzentrieren wir uns auf eine anspruchsvolle Aufgabe namens Zero-Shot-Semantische Segmentierung, die darauf abzielt, unbekannte Objekte ohne jegliche Annotation zu segmentieren. Diese Aufgabe kann durch Wissensübertragung zwischen Kategorien mittels semantischer Wort-Embeddings realisiert werden. In diesem Artikel stellen wir eine neuartige, kontextbewusste Merkmalsgenerierungsmethode für die Zero-Shot-Segmentierung vor, die als CaGNet bezeichnet wird. Insbesondere berücksichtigen wir die Beobachtung, dass ein pixelweises Merkmal stark von seiner kontextuellen Information abhängt, und integrieren daher einen kontextuellen Modul in ein Segmentierungsnetzwerk, um die pixelweisen Kontextinformationen zu erfassen. Dieser Modul leitet den Prozess der Generierung vielfältiger und kontextbewusster Merkmale aus semantischen Wort-Embeddings an. Unsere Methode erreicht state-of-the-art-Ergebnisse auf drei Standard-Datensätzen für die Zero-Shot-Segmentierung. Der Quellcode ist unter folgender URL verfügbar: https://github.com/bcmi/CaGNet-Zero-Shot-Semantic-Segmentation.