Dual-level Interaction for Domain Adaptive Semantic Segmentation

Der Self-Training-Ansatz hat sich kürzlich in der domainspezifischen semantischen Segmentierung etabliert, bei dem ein Modell mit Pseudolabels aus dem Zielbereich trainiert wird. Aktuelle Fortschritte haben die durch den Domänenunterschied verursachten Rauschpseudolabels gemildert. Dennoch leiden sie weiterhin an fehlerhaften Pseudolabels in der Nähe der Grenzen des semantischen Klassifikators. In diesem Artikel greifen wir dieses Problem an, indem wir einen Dual-Level-Interaktionsansatz für die Domänenanpassung (DIDA) in der semantischen Segmentierung vorschlagen. Explizit ermutigen wir die verschiedenen augmentierten Ansichten desselben Pixels dazu, nicht nur ähnliche Klassenprädiktionen (semantische Ebene) zu liefern, sondern auch ähnliche Ähnlichkeitsbeziehungen gegenüber anderen Pixeln aufzuweisen (Instanzebene). Da es unmöglich ist, die Merkmale aller Pixel-Instanzen einer Datensammlung zu speichern, pflegen wir daher eine gelabelte Instanzbank mit dynamischen Aktualisierungsstrategien, um gezielt informative Merkmale von Instanzen zu speichern. Darüber hinaus führt DIDA eine Kreuz-Ebenen-Interaktion mittels Streu- und Sammeltechniken durch, um zuverlässigere Pseudolabels neu zu generieren. Unser Ansatz übertrifft den Stand der Technik signifikant, insbesondere bei verwirrenden und langschwanzverteilten Klassen. Der Quellcode ist unter \href{https://github.com/RainJamesY/DIDA} verfügbar.