Klassenbalanciertes pixelbasiertes Selbstbeschriftung für domänenadaptive semantische Segmentierung

Die domänenadaptive semantische Segmentierung strebt an, ein Modell unter der Aufsicht von Quelldomänen-Daten zu trainieren und zufriedenstellende dichte Vorhersagen für nicht gekennzeichnete Zieldomänen zu erzeugen. Eine weit verbreitete Lösung für diese anspruchsvolle Aufgabe ist das Selbsttraining, bei dem hochbewertete Vorhersagen auf Zieldomänen-Stichproben als Pseudobeschriftungen für das Training ausgewählt werden. Allerdings enthalten die erzeugten Pseudobeschriftungen oft viel Rauschen, da das Modell sowohl auf die Quelldomäne als auch auf die Mehrheitskategorien verfangen ist. Um die genannten Probleme zu lösen, schlagen wir vor, die intrinsischen Pixelverteilungen der Zieldomänen-Daten direkt zu untersuchen, anstatt stark auf die Quelldomäne zu bauen. Genauer gesagt führen wir gleichzeitig eine Clusterverteilung der Pixel durch und korrigieren die Pseudobeschriftungen mit den erhaltenen Clusterzuordnungen. Dieser Prozess erfolgt in Echtzeit, sodass Pseudobeschriftungen mit dem Segmentierungsmodell ko-evolvieren können, ohne zusätzliche Trainingsrunden zu benötigen. Um das Problem der Klassenungleichverteilung bei langschwänzigen Kategorien zu bewältigen, verwenden wir eine Verteilungsangleichungstechnik, um sicherzustellen, dass die Randverteilung der Klassen in den Clusterzuordnungen der Verteilung der Pseudobeschriftungen entspricht. Die vorgeschlagene Methode, nämlich Class-balanced Pixel-level Self-Labeling (CPSL) (Klassenbalanciertes Pixelbasiertes Selbstbeschriftungsverfahren), verbessert die Segmentierungsleistung in der Zieldomäne gegenüber den bisher besten Methoden erheblich, insbesondere bei langschwänzigen Kategorien.