HyperAIHyperAI
il y a 17 jours

Modèle de fusion basé sur l'attention multi-modale pour la segmentation sémantique d'images RGB-Profondeur

Fahimeh Fooladgar, Shohreh Kasaei
Modèle de fusion basé sur l'attention multi-modale pour la segmentation sémantique d'images RGB-Profondeur
Résumé

La compréhension 3D des scènes est considérée principalement comme une exigence cruciale dans les applications de vision par ordinateur et de robotique. L'une des tâches de haut niveau dans la compréhension 3D des scènes est la segmentation sémantique d'images RGB-Depth. Grâce à la disponibilité des caméras RGB-D, il est souhaitable d'améliorer la précision du processus de compréhension de scène en exploitant à la fois les caractéristiques de profondeur et les caractéristiques d'apparence. Étant donné que les images de profondeur sont indépendantes de l'éclairage, elles permettent d'améliorer la qualité de l'étiquetage sémantique en complément des images RGB. La prise en compte des caractéristiques communes et spécifiques de ces deux modalités améliore significativement les performances de la segmentation sémantique. L'un des principaux défis de la segmentation sémantique RGB-Depth réside dans la manière de fusionner ou combiner efficacement ces deux modalités afin de tirer pleinement parti des avantages de chacune tout en maintenant une faible complexité computationnelle. Récemment, les méthodes basées sur les réseaux de neurones convolutifs profonds ont atteint des résultats de pointe grâce à des stratégies de fusion précoce, tardive et moyenne. Dans cet article, un modèle efficace à architecture encodeur-décodeur est proposé, intégrant un bloc de fusion basé sur l'attention afin de modéliser les influences mutuelles entre les cartes de caractéristiques des deux modalités. Ce bloc extrait explicitement les dépendances intermodales présentes dans les cartes de caractéristiques concaténées, permettant ainsi d'extraire des représentations de caractéristiques plus puissantes à partir des images RGB-Depth. Les résultats expérimentaux étendus sur trois bases de données challengées majeures — NYU-V2, SUN RGB-D et Stanford 2D-3D-Semantic — montrent que le réseau proposé dépasse les modèles de pointe en termes de coût computationnel et de taille du modèle. Les expérimentations confirment également l'efficacité du modèle léger basé sur l'attention proposé en matière de précision.