Un réseau à flux unique pour la détection robuste et en temps réel d'objets saillants en RGB-D

Les approches existantes de détection de objets saillants (SOD) en RGB-D se concentrent principalement sur la fusion inter-modale entre le flux RGB et le flux de profondeur. Elles n’explorent pas en profondeur l’impact intrinsèque de la carte de profondeur elle-même. Dans ce travail, nous proposons un réseau à flux unique qui utilise directement la carte de profondeur pour guider la fusion précoce et la fusion intermédiaire entre les données RGB et profondeur. Cette approche permet d’éliminer l’encodeur de caractéristiques dédié au flux de profondeur, aboutissant ainsi à un modèle léger et en temps réel. Nous exploitons de manière habile l’information de profondeur sous deux angles : (1) Pour surmonter le problème d’incompatibilité provoqué par les grandes différences entre les modalités, nous concevons un encodeur à flux unique afin d’assurer une fusion précoce, permettant ainsi une exploitation optimale d’un modèle pré-entraîné sur ImageNet pour extraire des caractéristiques riches et discriminantes. (2) Nous proposons un nouveau module d’attention double renforcée par la profondeur (DEDA), qui fournit efficacement aux branches de premier plan et d’arrière-plan des caractéristiques filtrées spatialement, permettant au décodeur de réaliser une fusion intermédiaire optimale. Par ailleurs, nous introduisons un module de extraction de caractéristiques pyramidales à attention (PAFE) pour localiser avec précision les objets de différentes échelles. Des expériences étendues montrent que le modèle proposé obtient de meilleurs résultats que la plupart des méthodes de pointe selon diverses métriques d’évaluation. En outre, ce modèle est 55,5 % plus léger que le modèle le plus léger actuellement disponible et fonctionne à une vitesse en temps réel de 32 FPS lors du traitement d’une image de taille $384 \times 384$.