Réseau de pondération cross-modale pour la détection d'objets saillants RGB-D

Les cartes de profondeur contiennent des indices géométriques utiles pour aider à la détection d'objets saillants (SOD). Dans cet article, nous proposons une nouvelle stratégie de pondération intermodale (CMW) afin de favoriser des interactions complètes entre les canaux RGB et profondeur pour la détection d'objets saillants en RGB-D. Plus précisément, trois modules d'interaction RGB-profondeur, nommés CMW-L, CMW-M et CMW-H, sont conçus pour traiter respectivement la fusion d'informations intermodales de basse, moyenne et haute niveau. Ces modules utilisent une pondération de profondeur vers RGB (DW) et une pondération RGB vers RGB (RW) afin de permettre des interactions riches entre modalités et entre échelles au sein des couches de caractéristiques générées par différents blocs réseaux. Pour entraîner efficacement le réseau de pondération intermodale proposé (CMWNet), nous avons conçu une fonction de perte composite qui synthétise les erreurs entre les prédictions intermédiaires et les étiquettes de référence à différentes échelles. Grâce à la collaboration de tous ces composants novateurs, CMWNet fusionne efficacement les informations provenant des canaux RGB et profondeur tout en explorant la localisation des objets et les détails à plusieurs échelles. Des évaluations approfondies démontrent que CMWNet surpasse de manière cohérente 15 méthodes de pointe en détection d'objets saillants RGB-D sur sept benchmarks populaires.