HyperAIHyperAI
il y a 3 mois

Réseau de fusion multi-modale basé sur l'attention pour la complétion sémantique de scène

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao
Réseau de fusion multi-modale basé sur l'attention pour la complétion sémantique de scène
Résumé

Cet article présente un réseau convolutionnel 3D end-to-end nommé réseau de fusion multimodale basé sur l’attention (AMFNet) pour la tâche de complétion sémantique de scène (SSC), visant à estimer l’occupation et les étiquettes sémantiques d’une scène 3D volumétrique à partir d’images RGB-D à vue unique. Contrairement aux méthodes précédentes qui utilisent uniquement les caractéristiques sémantiques extraites des images RGB-D, le AMFNet proposé apprend simultanément à réaliser une complétion efficace de scène 3D et une segmentation sémantique en exploitant l’expérience acquise dans la segmentation sémantique 2D à partir d’images RGB-D ainsi que les indices de profondeur fiables dans la dimension spatiale. Cette approche est réalisée grâce à une architecture de fusion multimodale améliorée à partir de la segmentation sémantique 2D, combinée à un réseau de complétion sémantique 3D renforcé par des blocs d’attention résiduels. Nous validons notre méthode sur deux jeux de données : le jeu synthétique SUNCG-RGBD et le jeu réel NYUv2. Les résultats montrent que notre méthode obtient des gains respectifs de 2,5 % et 2,6 % par rapport à l’état de l’art sur les jeux de données SUNCG-RGBD synthétique et NYUv2 réel.

Réseau de fusion multi-modale basé sur l'attention pour la complétion sémantique de scène | Articles de recherche | HyperAI