Textuelle Abfrage-getriebener Masken-Transformer für domainspezifische Generalisierung der Segmentierung

In diesem Paper stellen wir eine Methode zur Bewältigung des Domain-Generellen Semantischen Segmentierens (DGSS) vor, indem wir domain-invariante semantische Kenntnisse aus Text-Embeddings von Vision-Sprache-Modellen nutzen. Wir verwenden die Text-Embeddings als Objekt-Abfragen innerhalb eines Transformer-basierten Segmentierungsrahmens (textuelle Objekt-Abfragen). Diese Abfragen dienen als domain-invariante Grundlage für die Pixelgruppierung im DGSS. Um die Stärke textueller Objekt-Abfragen auszunutzen, führen wir einen neuen Rahmen namens textual query-driven mask transformer (tqdm) ein. Unser tqdm zielt darauf ab, (1) textuelle Objekt-Abfragen zu generieren, die die domain-invarianten Semantiken maximal kodieren, und (2) die semantische Klarheit dichter visueller Merkmale zu verbessern. Zusätzlich schlagen wir drei Regularisierungsverluste vor, um die Wirksamkeit von tqdm zu steigern, indem die Ausrichtung zwischen visuellen und textuellen Merkmalen gefördert wird. Durch die Anwendung unserer Methode kann das Modell inhärente semantische Informationen für relevante Klassen erfassen und somit auf extremen Domänen (z. B. Skizzenstil) generalisieren. Unser tqdm erreicht eine mIoU von 68,9 auf dem GTA5$\rightarrow$Cityscapes-Benchmark und übertrifft damit die vorherige State-of-the-Art-Methode um 2,5 mIoU. Die Projektseite ist unter https://byeonghyunpak.github.io/tqdm verfügbar.