Sélection et fusion de caractéristiques profondes pour la segmentation sémantique RGB-D

Les informations de profondeur de scène peuvent améliorer la segmentation sémantique en enrichissant l’information visuelle. Toutefois, la manière d’intégrer efficacement les données multimodales dans des caractéristiques représentatives reste un problème ouvert. La plupart des travaux existants utilisent des réseaux de neurones convolutifs profonds (DCNN) pour fusionner de manière implicite les données multimodales. Cependant, avec l’approfondissement du réseau, certaines caractéristiques discriminantes essentielles peuvent être perdues, ce qui nuit à la performance de segmentation. Ce travail propose un réseau unifié et efficace de sélection et de fusion de caractéristiques (FSFNet), comprenant un module de fusion résiduelle croisée symétrique permettant une fusion explicite des données multimodales. En outre, le réseau intègre un module de propagation détaillée des caractéristiques, conçu pour préserver les informations détaillées de bas niveau tout au long du processus de propagation avant du réseau. Les évaluations expérimentales montrent que, par rapport aux méthodes de pointe, le modèle proposé atteint des performances compétitives sur deux jeux de données publics.