DPANet : Réseau d'attention porteur de potentiel de profondeur à gated pour la détection des objets saillants en RGB-D

Il existe deux problèmes principaux dans la détection des objets saillants à partir de données RGB-D : (1) comment intégrer efficacement la complémentarité entre les données multimodales RGB-D ; (2) comment prévenir l’effet de contamination provenant de la carte de profondeur peu fiable. En réalité, ces deux problèmes sont étroitement liés, mais les méthodes précédentes ont tendance à se concentrer uniquement sur le premier aspect tout en négligeant l’évaluation de la qualité de la carte de profondeur, ce qui peut conduire le modèle vers un état sous-optimal. Dans cet article, nous abordons ces deux problèmes de manière synergique au sein d’un modèle global, et proposons un nouveau réseau appelé DPANet, qui modélise explicitement le potentiel de la carte de profondeur et intègre efficacement la complémentarité inter-modale. Grâce à l’introduction de la perception du potentiel de profondeur, le réseau est capable de percevoir, de manière apprise, le potentiel des informations de profondeur et d’orienter le processus de fusion des deux modalités afin d’éviter toute contamination. Le module d’attention multi-modale à porte utilisé dans le processus de fusion exploite un mécanisme d’attention contrôlé par une porte afin de capturer des dépendances à longue portée d’un point de vue inter-modale. Les résultats expérimentaux, comparés à 15 méthodes de pointe sur 8 jeux de données, démontrent la validité de l’approche proposée, tant du point de vue quantitatif que qualitatif.