Réseaux de déconvolution sensibles à la localité avec fusion portes pour la segmentation sémantique intérieure en RGB-D

Cet article se concentre sur la segmentation sémantique en intérieur à l’aide de données RGB-D. Bien que les réseaux de déconvolution couramment utilisés (DeconvNet) aient obtenu des résultats remarquables sur cette tâche, nous constatons qu’il existe encore des marges d’amélioration sur deux aspects. Le premier concerne la segmentation des contours : DeconvNet agrège un contexte étendu pour prédire l’étiquette de chaque pixel, ce qui limite intrinsèquement la précision de la segmentation des frontières des objets. Le second concerne la fusion RGB-D : les méthodes les plus récentes et les plus performantes fusionnent généralement les réseaux RGB et profondeur par une fusion de scores à poids égaux, indépendamment des contributions variables des deux modalités dans la délimitation de différentes catégories selon les scènes. Pour résoudre ces deux problèmes, nous proposons tout d’abord un DeconvNet sensible à la localité (LS-DeconvNet), conçu pour affiner la segmentation des contours au sein de chaque modalité. LS-DeconvNet intègre des indices visuels et géométriques locaux provenant des données brutes RGB-D dans chaque DeconvNet, permettant ainsi d’apprendre à reconstruire les cartes de convolution grossières à large contexte tout en préservant des frontières d’objets nettes. En ce qui concerne la fusion RGB-D, nous introduisons une couche de fusion à porte (gated fusion layer) pour combiner efficacement les deux DeconvNets LS. Cette couche est capable d’apprendre à ajuster dynamiquement les contributions respectives du RGB et de la profondeur pour chaque pixel, afin d’optimiser la reconnaissance d’objets. Des expériences menées sur le grand jeu de données SUN RGB-D et le jeu de données populaire NYU-Depth v2 démontrent que notre approche atteint de nouveaux états de l’art pour la segmentation sémantique en intérieur à partir de données RGB-D.