Erfassung von Omni-Range-Kontext für omnidirektionale Segmentierung

Convolutional Networks (ConvNets) zeichnen sich durch herausragende Leistung bei der semantischen Segmentierung aus und sind zu einer essenziellen Komponente der Wahrnehmung in autonomen Fahrzeugen geworden. Um eine umfassende Sicht auf Straßenumgebungen zu ermöglichen, erweisen sich omnidirektionale Kameras als idealer Ansatz für solche Systeme. Die meisten Segmentierungsmodelle zur Analyse städtischer Umgebungen basieren auf herkömmlichen Bildern mit schmalem Gesichtsfeld (Field of View, FoV). Bei der Übertragung dieser Modelle von ihrem ursprünglichen Anwendungsgebiet auf die 360-Grad-Wahrnehmung nimmt ihre Leistung drastisch ab – beispielsweise um 30,0 Prozentpunkte (mIoU) auf etablierten Testbenchs. Um die Diskrepanz hinsichtlich Gesichtsfeld und struktureller Verteilung zwischen den jeweiligen Bildgebungsdomänen zu überbrücken, führen wir Effiziente Concurrent Attention Networks (ECANets) ein, die die inhärenten langreichweitigen Abhängigkeiten in omnidirektionalen Bilddaten direkt erfassen. Neben gelernten, auf Aufmerksamkeit basierenden kontextuellen Priorisierungen, die sich über gesamte 360-Grad-Bilder erstrecken können, verbessern wir das Modelltraining durch den Einsatz von mehrquellenbasiertem und omni-supervisiertem Lernen, wobei sowohl dicht beschriftete als auch unbeschriftete Daten aus mehreren Datensätzen genutzt werden. Um den Fortschritt in der Panoramabild-Segmentierung zu fördern, präsentieren wir das Wild PAnoramic Semantic Segmentation (WildPASS)-Datenset, das vielfältige Szenen aus allen Teilen der Welt abbildet, sowie umfassend evaluieren wir darauf basierende Modelle. Unser neuartiges Modell, das Trainingsverfahren und die Fusionsstrategie für mehrquellenbasierte Vorhersagen erreichen auf den öffentlichen PASS-Benchmarks (60,2 % mIoU) und den neu eingeführten WildPASS-Benchmarks (69,0 % mIoU) neue state-of-the-art-Ergebnisse.