Prototypische Pseudo-Label-Denoising und Zielstruktur-Lernverfahren für domain-adaptive semantische Segmentierung

Self-Training ist ein konkurrenzfähiger Ansatz im Bereich der domänenanpassenden Segmentierung, bei dem das Netzwerk mit sogenannten Pseudolabels auf dem Zielbereich trainiert wird. Allerdings sind diese Pseudolabels unvermeidlich verrauscht, und die Zielmerkmale sind aufgrund der Diskrepanz zwischen Quell- und Zielbereich oft verstreut. In diesem Artikel greifen wir auf repräsentative Prototypen – die Merkmalszentroide der Klassen – zurück, um diese beiden Herausforderungen im Kontext der unsupervisierten Domänanpassung anzugehen. Insbesondere gehen wir einen Schritt weiter und nutzen die Merkmalsdistanzen zu diesen Prototypen, die reichere Informationen liefern als die Prototypen allein. Genauer nutzen wir diese Distanzen, um die Wahrscheinlichkeit der Pseudolabels zu schätzen und so eine Online-Korrektur während des Trainings zu ermöglichen. Gleichzeitig richten wir die prototypenbasierten Zuweisungen basierend auf relativen Merkmalsdistanzen für zwei verschiedene Ansichten desselben Zielobjekts aus, wodurch ein kompakterer Zielmerkmalsraum entsteht. Darüber hinaus stellen wir fest, dass die Übertragung bereits erlernter Kenntnisse auf ein selbstüberwachtes vortrainiertes Modell die Leistung weiter verbessert. Unser Ansatz zeigt eine erhebliche Überlegenheit gegenüber aktuellen State-of-the-Art-Methoden. Wir werden den Quellcode öffentlich zugänglich machen.