ACNet : Réseau Basé sur l'Attention pour Exploiter les Caractéristiques Complémentaires pour la Segmentation Sémantique RGBD

Comparé au découpage sémantique RGB, le découpage sémantique RGBD peut atteindre de meilleures performances en prenant en compte les informations de profondeur. Cependant, il reste problématique pour les segmenteurs actuels d'exploiter efficacement les informations RGBD, car les distributions de caractéristiques des images RGB et de profondeur (D) varient considérablement selon les scènes. Dans cet article, nous proposons un réseau complémentaire d'attention (Attention Complementary Network, ACNet) qui sélectionne et rassemble des caractéristiques à partir des branches RGB et de profondeur. Les principales contributions résident dans le module complémentaire d'attention (Attention Complementary Module, ACM) et l'architecture avec trois branches parallèles. Plus précisément, l'ACM est un module basé sur l'attention aux canaux qui extrait des caractéristiques pondérées à partir des branches RGB et de profondeur. L'architecture préserve l'inférence des branches originales RGB et de profondeur tout en permettant la branche de fusion simultanément. Grâce à ces structures, l'ACNet est capable d'exploiter davantage de caractéristiques de haute qualité provenant de différents canaux. Nous évaluons notre modèle sur les jeux de données SUN-RGBD et NYUDv2, et démontrons que notre modèle surpassent les méthodes d'avant-garde. En particulier, un score mIoU de 48,3 % sur l'ensemble de test NYUDv2 est obtenu avec ResNet50. Nous mettrons à disposition notre code source basé sur PyTorch ainsi que le modèle de segmentation entraîné sur https://github.com/anheidelonghu/ACNet.