Réseaux de neurones graphiques en cascade pour la détection des objets saillants en RGB-D

Dans cet article, nous étudions le problème de la détection d'objets saillants (SOD) à partir d'images RGB-D en exploitant à la fois les informations couleur et profondeur. Un défi technique majeur consiste à tirer pleinement parti des deux sources de données complémentaires. Les approches actuelles se contentent soit de tirer simplement des connaissances a priori à partir de la carte de profondeur correspondante pour traiter l'image RGB, soit de fusionner aveuglément les informations couleur et géométriques afin de générer des représentations brutes sensibles à la profondeur, ce qui limite les performances des détecteurs de saillance RGB-D. Dans ce travail, nous proposons Cas-Gnn, un cadre unifié capable de tirer de manière exhaustive et de raisonner sur les bénéfices mutuels entre ces deux sources de données à l’aide d’un ensemble de graphes en cascade, afin d’apprendre des représentations puissantes pour la détection d’objets saillants dans les images RGB-D. Cas-Gnn traite les deux sources de données de manière indépendante et utilise un nouveau module de raisonnement par graphes en cascade (CGR) pour apprendre des embeddings de caractéristiques denses puissants, à partir desquels la carte de saillance peut être facilement déduite. Contrairement aux approches antérieures, la modélisation explicite et le raisonnement des relations de haut niveau entre les sources de données complémentaires nous permettent de surmonter plus efficacement des défis tels que les occlusions et les ambigüités. Des expériences étendues montrent que Cas-Gnn atteint des performances nettement supérieures à celles de toutes les méthodes existantes de SOD RGB-D sur plusieurs benchmarks largement utilisés.