Bending Reality: Verzerrungsbewusste Transformers für die Anpassung an panoramische semantische Segmentierung

Panoramabilder mit ihrer 360-Grad-Richtungsansicht enthalten umfassende Informationen über den umgebenden Raum und bilden somit eine reichhaltige Grundlage für die Szenenverstehens. Um dieses Potenzial in Form robuster Panoramasegmentierungsmodelle auszuschöpfen, sind große Mengen kostspieliger, pixelgenauer Annotationen entscheidend für den Erfolg. Solche Annotationen sind zwar vorhanden, jedoch vorwiegend für schmale Blickwinkel und pinhole-Kamerabilder, die als Standardressourcen zur Schulung von Panoramamodellen suboptimal geeignet sind. Verzerrungen und die charakteristische Verteilung von Bildmerkmalen in 360-Grad-Panoramen erschweren die Übertragung aus dem annotationsreichen Pinhole-Domäne und führen daher zu erheblichen Leistungseinbußen. Um diesen Domänenunterschied zu überwinden und semantische Annotationen aus Pinhole- und 360-Grad-Umgebungsbildern zusammenzuführen, schlagen wir vor, Objektdeformationen und Panoramaverzerrungen in den Deformable Patch Embedding (DPE) und Deformable MLP (DMLP) Komponenten zu lernen, die nahtlos in unser Transformer-Modell für Panoramasemantische Segmentierung (Trans4PASS) integriert sind. Schließlich verbinden wir gemeinsame Semantik in Pinhole- und Panoramamerkmalen durch die Generierung mehrskaliger Prototypmerkmale und deren Ausrichtung in unserem Mutual Prototypical Adaptation (MPA) Ansatz für unsupervisierte Domänenanpassung. Auf dem indoor-Datensatz Stanford2D3D erreicht unser Trans4PASS mit MPA eine vergleichbare Leistung wie vollständig überwachte State-of-the-Art-Modelle, wodurch der Bedarf an über 1.400 annotierten Panoramen entfällt. Auf dem outdoor-Datensatz DensePASS übertreffen wir den bisherigen State-of-the-Art um 14,39 % mIoU und setzen eine neue Benchmark mit 56,38 %. Der Quellcode wird öffentlich unter https://github.com/jamycheung/Trans4PASS bereitgestellt.