HyperAIHyperAI
il y a 17 jours

Derrière chaque domaine se cache un décalage : adapter les Vision Transformers sensibles aux distorsions pour la segmentation sémantique panoramique

Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen
Derrière chaque domaine se cache un décalage : adapter les Vision Transformers sensibles aux distorsions pour la segmentation sémantique panoramique
Résumé

Dans cet article, nous abordons la segmentation sémantique panoramique, un domaine sous-exploité en raison de deux défis majeurs : (1) les distorsions d’image et les déformations d’objets présentes dans les panoramas ; (2) le manque d’étiquetages sémantiques dans les images à 360°. Pour relever ces défis, nous proposons tout d’abord un Transformer amélioré pour la segmentation sémantique panoramique, nommé Trans4PASS+, doté de modules d’embedding de patch déformables (DPE) et de MLP déformables (DMLPv2), capables de traiter efficacement les déformations d’objets et les distorsions d’image, qu’elles surviennent avant ou après adaptation, et à tout niveau du réseau (superficiel ou profond). Ensuite, nous améliorons la stratégie d’adaptation prototypique mutuelle (MPA) grâce à une rectification des pseudo-étiquettes, permettant une adaptation de domaine non supervisée pour la segmentation panoramique. Enfin, au-delà de l’adaptation Pinhole-to-Panoramic (Pin2Pan), nous avons créé un nouveau jeu de données, SynPASS, comprenant 9 080 images panoramiques, facilitant ainsi une stratégie d’adaptation Synthétique-vers-Réel (Syn2Real) dans le cadre des images à 360°. Des expériences étendues ont été menées, couvrant des scénarios intérieurs et extérieurs, chacun analysé sous les deux régimes Pin2Pan et Syn2Real. Trans4PASS+ atteint des performances de pointe sur quatre benchmarks de segmentation sémantique panoramique avec adaptation de domaine. Le code source est disponible à l’adresse suivante : https://github.com/jamycheung/Trans4PASS.