Bidirektionales Selbsttraining mit mehreren anisotropen Prototypen für domänenadaptive semantische Segmentierung

Ein prosperierender Trend im Bereich der domänenadaptiven Segmentierung besteht darin, hochwertige Pseudolabels für das Ziel-Domänen zu generieren und den Segmentierer anhand dieser Labels neu zu trainieren. Innerhalb dieses Paradigmas des Selbsttrainings haben einige wettbewerbsfähige Methoden versucht, die Informationen des Latentraums auszunutzen, indem sie die Merkmalszentren (auch bekannt als Prototypen) der semantischen Klassen etablieren und die Pseudolabel-Kandidaten nach deren Abständen von diesen Zentren bestimmen. In dieser Arbeit argumentieren wir, dass der Latentraum noch mehr Informationen enthält, die genutzt werden können, und gehen einen Schritt weiter in Richtung dessen Nutzung. Erstens verwenden wir nicht nur die Prototypen des Quell-Domänen zur Bestimmung der Pseudolabels des Ziels wie es die meisten traditionellen Methoden tun, sondern erzeugen bidirektional die Prototypen des Ziel-Domänen, um jene Quell-Merkmale abzuschwächen, die möglicherweise zu schwierig oder gestört sind für die Anpassung. Zweitens modellieren bestehende Ansätze jede Kategorie lediglich als ein einzelnes und isotropes Prototypen, während sie die Varianz der Merkmalsverteilung ignorieren, was zu Verwechslungen ähnlicher Kategorien führen kann. Um dieses Problem anzugehen, schlagen wir vor, jede Kategorie durch mehrere anisotrope Prototypen mittels eines Gaußschen Mischmodells (Gaussian Mixture Model) darzustellen, um die tatsächliche Verteilung des Quell-Domänen abzubilden und die Wahrscheinlichkeit von Ziel-Beispielen auf Basis der Wahrscheinlichkeitsdichte zu schätzen. Wir wenden unsere Methode auf den Aufgaben GTA5->Cityscapes und Synthia->Cityscapes an und erreichen dabei 61,2 und 62,8 bezüglich des mittleren IoU-Werts (mean IoU), was anderen wettbewerbsfähigen Selbsttraining-Methoden deutlich überlegen ist. Auffällig ist hierbei insbesondere das Ergebnis in Kategorien mit starkem Kategorienvorurteil wie "Laster" (truck) und "Bus", bei denen unsere Methode Werte von 56,4 und 68,8 erreicht. Dies unterstreicht weiterhin die Effektivität unserer Konzeption.