Sélection, complément et focalisation pour la détection de la salience RGB-D

Les données de profondeur contenant une forte capacité discriminante en matière de localisation se sont avérées bénéfiques pour une prédiction précise de la salience. Toutefois, les méthodes de détection de salience RGB-D sont également affectées négativement par des régions erronées ou manquantes distribuées aléatoirement sur la carte de profondeur, ou encore le long des frontières des objets. Cela ouvre la possibilité d’obtenir une inférence plus efficace grâce à des modèles soigneusement conçus. Dans cet article, nous proposons un nouveau cadre pour la détection précise de la salience RGB-D, prenant en compte les complémentarités locales et globales provenant des deux modalités. Ceci est réalisé en concevant un modèle d’interaction complémentaire suffisamment discriminant pour sélectionner simultanément des représentations utiles issues des données RGB et de profondeur, tout en affinant les frontières des objets. En outre, nous proposons une fonction de perte consciente de la compensation, permettant de traiter ultérieurement les informations non prises en compte par le modèle d’interaction complémentaire, ce qui améliore ainsi la capacité de généralisation dans des scènes complexes. Des expériences menées sur six jeux de données publics montrent que notre méthode surpasse 18 méthodes de pointe.