HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique d'une seule trame à l'aide d'images sphériques multimodales

Suresh Guttikonda Jason Rambach

Résumé

Ces dernières années, la communauté scientifique a porté un intérêt croissant aux images panoramiques offrant une perspective directionnelle à 360 degrés. Plusieurs modalités de données peuvent être intégrées, et leurs caractéristiques complémentaires peuvent être exploitées pour une interprétation de scène plus robuste et plus riche, fondée sur la segmentation sémantique, afin de tirer pleinement parti de leur potentiel. Toutefois, les travaux existants se concentrent principalement sur la segmentation sémantique RGB-X à l’aide d’un modèle à lentille pinhole. Dans cette étude, nous proposons une architecture fondée sur les transformateurs pour la fusion cross-modale, afin de combler l’écart entre la fusion multi-modale et la perception omnidirectionnelle de la scène. Nous utilisons des modules sensibles à la distorsion afin de traiter les déformations extrêmes des objets et les distorsions panoramiques induites par la représentation équirectangulaire. En outre, nous menons des interactions cross-modales pour la rectification des caractéristiques et l’échange d’informations avant la fusion des représentations, afin de transmettre des contextes à longue portée entre les flux de caractéristiques bi-modaux et tri-modaux. Dans des évaluations approfondies effectuées sur trois jeux de données panoramiques intérieurs, en combinant quatre types de modalités différents, notre méthode atteint des performances de mIoU de pointe : 60,60 % sur Stanford2D3DS (RGB-HHA), 71,97 % sur Structured3D (RGB-D-N) et 35,92 % sur Matterport3D (RGB-D). Nous prévoyons de rendre disponibles bientôt tous les codes source ainsi que les modèles entraînés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp