il y a 17 jours

Bending Reality : Transformateurs conscients de la distortion pour l’adaptation à la segmentation sémantique panoramique

Jiaming Zhang, Kailun Yang, Chaoxiang Ma, Simon Reiß, Kunyu Peng, Rainer Stiefelhagen

Résumé

Les images panoramiques, offrant une vue à 360 degrés, contiennent une information exhaustive sur l’espace environnant, constituant ainsi une base riche pour la compréhension de scènes. Pour exploiter pleinement ce potentiel à travers des modèles robustes de segmentation panoramique, des annotations pixel-par-pixel abondantes et coûteuses sont essentielles. Bien que de telles annotations existent, elles sont principalement disponibles pour des images à angle étroit capturées par caméra à lentille unique (pinhole), qui, en tant que ressources pré-entraînées, se révèlent sous-optimales pour l’entraînement de modèles panoramiques. Les distorsions caractéristiques ainsi que la distribution différente des caractéristiques d’image dans les panoramas à 360 degrés entravent fortement le transfert d’information depuis le domaine riche en annotations des caméras pinhole, entraînant une dégradation significative des performances. Pour contourner cette différence de domaine et intégrer les annotations sémantiques provenant à la fois des images pinhole et des images panoramiques, nous proposons d’apprendre les déformations des objets et les distorsions des images panoramiques au sein des composants Deformable Patch Embedding (DPE) et Deformable MLP (DMLP), intégrés à notre modèle Transformer pour la segmentation sémantique panoramique, Trans4PASS. Enfin, nous établissons une correspondance sémantique partagée entre les représentations features des images pinhole et panoramiques en générant des prototypes multi-échelles et en les alignant via notre méthode d’adaptation de domaine non supervisée, Mutual Prototypical Adaptation (MPA). Sur le jeu de données intérieur Stanford2D3D, notre modèle Trans4PASS combiné à MPA atteint des performances comparables à celles des méthodes état-de-l’art entièrement supervisées, tout en réduisant de plus de 1 400 le nombre d’images panoramiques annotées nécessaires. Sur le jeu de données extérieur DensePASS, nous surpassons l’état de l’art de 14,39 % en mIoU, établissant un nouveau record à 56,38 %. Le code source sera rendu publique à l’adresse suivante : https://github.com/jamycheung/Trans4PASS.