HyperAIHyperAI
vor 8 Tagen

G2L: Eine globale-zu-lokalen Ausrichtungsmethode für semantisches Segmentieren mit unsupervisierter domainspezifischer Anpassung

{Thi-Oanh Nguyen, Dinh Viet Sang, Kieu Dang Nam, Nguyen Viet Manh}
Abstract

Unsupervised Domain Adaptation (UDA) für die semantische Segmentierung zielt darauf ab, Wissen aus einem Quelldatensatz mit dichten pixelgenauen Annotationen auf einen nicht annotierten Ziel-Datensatz zu übertragen. Allerdings leidet die Leistung von UDA-Methoden häufig unter dem Domänenversatz, also der Diskrepanz zwischen den Merkmalsverteilungen der beiden Domänen. Es wurden mehrere Ansätze unternommen, diese Verteilungen auf Bild-Ebene partiell anzupassen. Aufgrund des sogenannten kategorienspezifischen Domänenversatzes gewährleisten solche globalen Anpassungen jedoch nicht zwangsläufig eine gute Trennbarkeit der tiefen Merkmale, die aus verschiedenen Kategorien im Ziel-Datensatz extrahiert werden. Folglich können die generierten Pseudolabels verrauscht sein und somit den Lernprozess im Ziel-Datensatz beeinträchtigen. Einige neuere Methoden konzentrieren sich darauf, die Pseudolabels online unter Verwendung kategorienspezifischer Informationen zu entgiften. In dieser Arbeit stellen wir eine neuartige UDA-Methode namens Global-to-Local Alignment (G2L) vor, die feinabgestimmte adversarielle Trainingstechniken sowie einen neu vorgeschlagenen chromatischen Fourier-Transformationsansatz nutzt, um den Bild-Ebenen-Domänenversatz global zu adressieren. Anschließend behandelt unsere Methode den kategorienspezifischen Domänenversatz aus einer lokalen Perspektive. Konkret schlagen wir eine Strategie zur Bewertung von Long-Tail-Kategorien vor sowie die Anwendung dynamischer Konfidenzschwellen und kategorienspezifischer Prioritätsgewichte bei der Generierung und Entgiftung der Pseudolabels, um seltene Kategorien zu bevorzugen. Schließlich wird Selbst-Distillation eingesetzt, um die endgültigen Segmentierungsergebnisse zu verbessern. Experimente auf etablierten Benchmarks wie GTA5 → Cityscapes und SYNTHIA → Cityscapes zeigen, dass unsere Methode eine überlegene Genauigkeitsleistung im Vergleich zu anderen state-of-the-art-Verfahren erzielt.