HyperAIHyperAI

Command Palette

Search for a command to run...

Hinter jedem Domänenbereich verbirgt sich eine Verschiebung: Anpassung von verzerrungsbewussten Vision Transformers für die panormische semantische Segmentierung

Jiaming Zhang Kailun Yang Hao Shi Simon Reiß Kunyu Peng Chaoxiang Ma Haodong Fu Philip H. S. Torr Kaiwei Wang Rainer Stiefelhagen

Zusammenfassung

In diesem Artikel behandeln wir die panoramische semantische Segmentierung, die aufgrund zweier kritischer Herausforderungen bisher untererforscht ist: (1) Bildverzerrungen und Objektdeformationen in Panoramen; (2) Mangel an semantischen Annotationen in 360°-Bildern. Um diese Probleme anzugehen, schlagen wir zunächst den verbesserten Transformer für die panoramische semantische Segmentierung, d. h. Trans4PASS+, vor, der mit Modulen für deformierbare Patch-Embedding (DPE) und deformierbare MLP (DMLPv2) ausgestattet ist, um Objektdeformationen und Bildverzerrungen unabhängig davon zu bewältigen, ob diese vor oder nach der Adaptation auftreten und unabhängig davon, ob sie auf flachen oder tiefen Ebenen auftreten. Zweitens verbessern wir die Mutual Prototypical Adaptation (MPA)-Strategie durch Pseudolabel-Rektifikation für die unsupervisierte Domänenanpassung bei der panoramischen semantischen Segmentierung. Drittens erstellen wir neben der Pinhole-zu-Panorama-(Pin2Pan)-Adaptation eine neue Datensammlung (SynPASS) mit 9.080 panoramischen Bildern, die die Synthetisch-zu-Real-(Syn2Real)-Adaptation in 360°-Bildern ermöglicht. Umfangreiche Experimente werden durchgeführt, die sowohl innen- als auch außenräumliche Szenarien abdecken, wobei jeweils sowohl die Pin2Pan- als auch die Syn2Real-Strategie untersucht werden. Trans4PASS+ erreicht state-of-the-art-Ergebnisse auf vier Benchmarks für domänenadaptierte panoramische semantische Segmentierung. Der Quellcode ist unter https://github.com/jamycheung/Trans4PASS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hinter jedem Domänenbereich verbirgt sich eine Verschiebung: Anpassung von verzerrungsbewussten Vision Transformers für die panormische semantische Segmentierung | Paper | HyperAI