Réseau de convolution par différence de pixels pour la segmentation sémantique RGB-D

La segmentation sémantique RGB-D peut être améliorée grâce aux réseaux de neurones convolutifs (CNN), notamment grâce à la disponibilité des données de profondeur (Depth). Bien que les objets ne puissent pas être facilement distingués uniquement à partir de leur apparence 2D, la prise en compte des différences locales entre pixels ainsi que des motifs géométriques présents dans les données de profondeur permet une séparation efficace dans certains cas. Toutefois, en raison de la structure fixe des noyaux en grille, les CNN présentent une limitation dans leur capacité à capturer des informations détaillées et fines, ce qui empêche d’atteindre une segmentation sémantique au niveau pixel précis. Pour résoudre ce problème, nous proposons un réseau convolutif basé sur les différences entre pixels (PDCNet), conçu pour extraire des motifs intrinsèques détaillés en combinant, respectivement, les informations d’intensité et de gradient sur une portée locale pour les données de profondeur et sur une portée globale pour les données RGB. Plus précisément, PDCNet se compose d’une branche Depth et d’une branche RGB. Pour la branche Depth, nous introduisons une convolution par différence de pixels (PDC), qui permet de capturer les informations géométriques locales et détaillées en agrégeant à la fois les informations d’intensité et de gradient. Pour la branche RGB, nous proposons une architecture légère à noyaux larges en cascade (CLK), qui étend la PDC pour former une version améliorée appelée CPDC, permettant d’exploiter des contextes globaux dans les données RGB et d’optimiser davantage les performances. Ainsi, les différences locales et globales entre pixels des deux modalités sont intégrées de manière fluide au cours du processus de propagation d’information dans PDCNet. Des expériences menées sur deux jeux de données de référence exigeants, à savoir NYUDv2 et SUN RGB-D, montrent que notre PDCNet atteint des performances de pointe pour la tâche de segmentation sémantique.