HyperAIHyperAI
vor 17 Tagen

Globale und lokale Textur-Randomisierung für die synthetisch-zu-realen semantischen Segmentierung

Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, Jun Liu
Globale und lokale Textur-Randomisierung für die synthetisch-zu-realen semantischen Segmentierung
Abstract

Semantische Segmentierung ist eine entscheidende Aufgabe im Bereich der Bildverstehens, bei der jeder Pixel eines Bildes einer entsprechenden Kategorie zugeordnet wird. Da die pixelgenaue Etikettierung der Ground-Truth zeitaufwendig und arbeitsintensiv ist, nutzen viele Ansätze in der Praxis synthetische Bilder, um Modelle für die semantische Segmentierung realer Bilder zu trainieren, also sogenannte Synthetic-to-Real Semantic Segmentation (SRSS). Allerdings können tiefe convolutionale neuronale Netze (CNNs), die auf synthetischen Quelldaten trainiert wurden, nicht immer gut auf Zielbilder aus der realen Welt generalisieren. In dieser Arbeit stellen wir zwei einfache, jedoch effektive Mechanismen zur Texturzufälligkeit vor: Global Texture Randomization (GTR) und Local Texture Randomization (LTR), die für eine Domain-Generalisierung in der SRSS eingesetzt werden. GTR zielt darauf ab, die Textur der Quelldaten in vielfältige, unrealistische Texturstile zu transformieren, um die Abhängigkeit des Netzwerks von Texturmerkmalen zu verringern und gleichzeitig das Lernen von domain-invarianten Merkmalen zu fördern. Darüber hinaus stellen wir fest, dass Texturunterschiede nicht notwendigerweise über das gesamte Bild verteilt sind, sondern möglicherweise nur in bestimmten lokalen Bereichen auftreten. Daher führen wir einen zusätzlichen LTR-Mechanismus ein, der diverse lokale Regionen generiert, um die Quelldaten partiell zu stilisieren. Schließlich implementieren wir eine Regularisierung der Konsistenz zwischen GTR und LTR (CGL), um die beiden vorgeschlagenen Mechanismen während des Trainings harmonisch zu integrieren. Umfassende Experimente auf fünf öffentlich verfügbaren Datensätzen (GTA5, SYNTHIA, Cityscapes, BDDS und Mapillary) unter verschiedenen SRSS-Szenarien (z. B. GTA5/SYNTHIA → Cityscapes/BDDS/Mapillary) zeigen, dass die vorgeschlagene Methode gegenüber den aktuellen State-of-the-Art-Ansätzen für domain-Generalisierungs-basierte SRSS überlegen ist.