il y a 17 jours

Segmentation sémantique d'une seule trame à l'aide d'images sphériques multimodales

Suresh Guttikonda, Jason Rambach

Résumé

Ces dernières années, la communauté scientifique a porté un intérêt croissant aux images panoramiques offrant une perspective directionnelle à 360 degrés. Plusieurs modalités de données peuvent être intégrées, et leurs caractéristiques complémentaires peuvent être exploitées pour une interprétation de scène plus robuste et plus riche, fondée sur la segmentation sémantique, afin de tirer pleinement parti de leur potentiel. Toutefois, les travaux existants se concentrent principalement sur la segmentation sémantique RGB-X à l’aide d’un modèle à lentille pinhole. Dans cette étude, nous proposons une architecture fondée sur les transformateurs pour la fusion cross-modale, afin de combler l’écart entre la fusion multi-modale et la perception omnidirectionnelle de la scène. Nous utilisons des modules sensibles à la distorsion afin de traiter les déformations extrêmes des objets et les distorsions panoramiques induites par la représentation équirectangulaire. En outre, nous menons des interactions cross-modales pour la rectification des caractéristiques et l’échange d’informations avant la fusion des représentations, afin de transmettre des contextes à longue portée entre les flux de caractéristiques bi-modaux et tri-modaux. Dans des évaluations approfondies effectuées sur trois jeux de données panoramiques intérieurs, en combinant quatre types de modalités différents, notre méthode atteint des performances de mIoU de pointe : 60,60 % sur Stanford2D3DS (RGB-HHA), 71,97 % sur Structured3D (RGB-D-N) et 35,92 % sur Matterport3D (RGB-D). Nous prévoyons de rendre disponibles bientôt tous les codes source ainsi que les modèles entraînés.