HyperAIHyperAI
vor 17 Tagen

Hinter jedem Domänenbereich verbirgt sich eine Verschiebung: Anpassung von verzerrungsbewussten Vision Transformers für die panormische semantische Segmentierung

Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen
Hinter jedem Domänenbereich verbirgt sich eine Verschiebung: Anpassung von verzerrungsbewussten Vision Transformers für die panormische semantische Segmentierung
Abstract

In diesem Artikel behandeln wir die panoramische semantische Segmentierung, die aufgrund zweier kritischer Herausforderungen bisher untererforscht ist: (1) Bildverzerrungen und Objektdeformationen in Panoramen; (2) Mangel an semantischen Annotationen in 360°-Bildern. Um diese Probleme anzugehen, schlagen wir zunächst den verbesserten Transformer für die panoramische semantische Segmentierung, d. h. Trans4PASS+, vor, der mit Modulen für deformierbare Patch-Embedding (DPE) und deformierbare MLP (DMLPv2) ausgestattet ist, um Objektdeformationen und Bildverzerrungen unabhängig davon zu bewältigen, ob diese vor oder nach der Adaptation auftreten und unabhängig davon, ob sie auf flachen oder tiefen Ebenen auftreten. Zweitens verbessern wir die Mutual Prototypical Adaptation (MPA)-Strategie durch Pseudolabel-Rektifikation für die unsupervisierte Domänenanpassung bei der panoramischen semantischen Segmentierung. Drittens erstellen wir neben der Pinhole-zu-Panorama-(Pin2Pan)-Adaptation eine neue Datensammlung (SynPASS) mit 9.080 panoramischen Bildern, die die Synthetisch-zu-Real-(Syn2Real)-Adaptation in 360°-Bildern ermöglicht. Umfangreiche Experimente werden durchgeführt, die sowohl innen- als auch außenräumliche Szenarien abdecken, wobei jeweils sowohl die Pin2Pan- als auch die Syn2Real-Strategie untersucht werden. Trans4PASS+ erreicht state-of-the-art-Ergebnisse auf vier Benchmarks für domänenadaptierte panoramische semantische Segmentierung. Der Quellcode ist unter https://github.com/jamycheung/Trans4PASS verfügbar.