HyperAIHyperAI
vor 3 Monaten

Transfer über den Sichtbereich hinaus: Dichte panoramische semantische Segmentierung mittels unsupervisierter Domänenanpassung

Jiaming Zhang, Chaoxiang Ma, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen
Transfer über den Sichtbereich hinaus: Dichte panoramische semantische Segmentierung mittels unsupervisierter Domänenanpassung
Abstract

Autonome Fahrzeuge profitieren eindeutig von der erweiterten Gesichtsfeld (Field of View, FoV) 360-Grad-Sensoren, doch moderne Ansätze zur semantischen Segmentierung stützen sich stark auf annotierte Trainingsdaten, die für panoramische Bilder selten verfügbar sind. Wir betrachten dieses Problem aus der Perspektive der Domänenanpassung und bringen die panoramische semantische Segmentierung in einen Kontext, in dem die gelabelten Trainingsdaten aus einer anderen Verteilung stammen – nämlich aus konventionellen Pinhole-Kamerabildern. Um dies zu erreichen, formalisieren wir die Aufgabe der unsupervisierten Domänenanpassung für panoramische semantische Segmentierung und stellen DensePASS vor – ein neuartiges, dicht annotiertes Datensatz für panoramische Segmentierung unter cross-domain-Bedingungen, speziell konzipiert, um den Pinhole-zu-Panoramic-Domänenversatz zu untersuchen, und begleitet von Trainingsbeispielen aus Pinhole-Kameras, die aus Cityscapes stammen. DensePASS umfasst sowohl gelabelte als auch ungelabelte 360-Grad-Bilder; die gelabelten Daten umfassen 19 Klassen, die explizit den Kategorien der Quelldomäne (d. h. Pinhole-Domäne) entsprechen. Da datengetriebene Modelle besonders empfindlich gegenüber Veränderungen der Datenerzeugungsverteilung sind, führen wir P2PDA ein – einen generischen Rahmen für Pinhole-zu-Panoramic-Segmentierung, der die Herausforderung der Domänenabweichung durch verschiedene Varianten von auf Aufmerksamkeit basierenden Domänenanpassungsmodulen bewältigt und somit den Transfer im Ausgabe-, Merkmals- und Merkmals-Vertrauensraum ermöglicht. P2PDA integriert unsicherheitsbewusste Anpassung, bei der Vertrauenswerte in Echtzeit über Aufmerksamkeitsköpfe reguliert werden, und berücksichtigt dabei diskrepanziale Vorhersagen. Unser Framework fördert den Austausch von Kontextinformationen beim Lernen von Domänenkorrespondenzen und verbessert die Anpassungsleistung von sowohl genauen als auch effizienten Modellen deutlich. Umfassende Experimente bestätigen, dass unser Framework unsupervised domain adaptation-Methoden sowie spezialisierte Ansätze für panoramische Segmentierung eindeutig übertrifft.