HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau de fusion multi-modale basé sur l'attention pour la complétion sémantique de scène

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

Résumé

Cet article présente un réseau convolutionnel 3D end-to-end nommé réseau de fusion multimodale basé sur l’attention (AMFNet) pour la tâche de complétion sémantique de scène (SSC), visant à estimer l’occupation et les étiquettes sémantiques d’une scène 3D volumétrique à partir d’images RGB-D à vue unique. Contrairement aux méthodes précédentes qui utilisent uniquement les caractéristiques sémantiques extraites des images RGB-D, le AMFNet proposé apprend simultanément à réaliser une complétion efficace de scène 3D et une segmentation sémantique en exploitant l’expérience acquise dans la segmentation sémantique 2D à partir d’images RGB-D ainsi que les indices de profondeur fiables dans la dimension spatiale. Cette approche est réalisée grâce à une architecture de fusion multimodale améliorée à partir de la segmentation sémantique 2D, combinée à un réseau de complétion sémantique 3D renforcé par des blocs d’attention résiduels. Nous validons notre méthode sur deux jeux de données : le jeu synthétique SUNCG-RGBD et le jeu réel NYUv2. Les résultats montrent que notre méthode obtient des gains respectifs de 2,5 % et 2,6 % par rapport à l’état de l’art sur les jeux de données SUNCG-RGBD synthétique et NYUv2 réel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp