Raumbezogene Aufmerksamkeits-Pyramiden-Netzwerk für unüberwachte Domänenanpassung

Unüberwachte Domänenanpassung ist für verschiedene Aufgaben im Bereich des maschinellen Sehens von entscheidender Bedeutung, wie beispielsweise Objektdetektion, Instanzsegmentierung und semantische Segmentierung, und zielt darauf ab, die Leistungsverschlechterung durch Domänenverschiebung zu verringern. Die meisten bisherigen Methoden stützen sich auf eine einmodale Verteilung der Quell- und Zieldomänen, um diese mittels adversarieller Lernverfahren zu alignen, was in verschiedenen Szenarien zu suboptimalen Ergebnissen führt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein neues Netzwerk mit räumlicher Aufmerksamkeitspyramide für die unüberwachte Domänenanpassung vor. Konkret erstellen wir zunächst eine räumliche Pyramidenrepräsentation, um Kontextinformationen von Objekten auf verschiedenen Skalen zu erfassen. Unter Anleitung von aufgabe-spezifischen Informationen kombinieren wir effektiv die dichte globale Strukturrepräsentation und lokale Texturmuster an jeder räumlichen Position mittels eines räumlichen Aufmerksamkeitsmechanismus. Auf diese Weise wird das Netzwerk dazu gezwungen, sich auf diskriminative Regionen mit Kontextinformationen zu konzentrieren, um die Domänenanpassung zu verbessern. Wir führen umfangreiche Experimente auf mehreren anspruchsvollen Datensätzen für die unüberwachte Domänenanpassung in den Bereichen Objektdetektion, Instanzsegmentierung und semantische Segmentierung durch, wodurch sich zeigt, dass unsere Methode im Vergleich zu den aktuell besten Ansätzen erheblich besser abschneidet. Der Quellcode ist unter https://isrc.iscas.ac.cn/gitlab/research/domain-adaption verfügbar.