La profondeur est-elle vraiment nécessaire pour la détection d'objets saillants ?

La détection d'objets saillants (SOD) constitue une tâche fondamentale et préliminaire pour de nombreuses applications de vision par ordinateur, dont les performances se sont améliorées grâce aux réseaux de neurones convolutifs profonds (CNN). La plupart des méthodes existantes s'appuient principalement sur les informations RGB pour distinguer les objets saillants, ce qui pose des difficultés dans certains scénarios complexes. Pour surmonter ce défaut, de nombreuses architectures récentes basées sur le couple RGB-D ont été proposées en intégrant la carte de profondeur comme entrée indépendante et en fusionnant les caractéristiques avec celles issues de l'information RGB. Inspirés des avantages des approches RGB et RGB-D, nous proposons un cadre novateur de détection d'objets saillants sensible à la profondeur, caractérisé par les améliorations suivantes : 1) Il utilise uniquement les données de profondeur pendant l'entraînement, tout en ne s'appuyant que sur l'information RGB lors de l'évaluation. 2) Il optimise de manière globale les caractéristiques de SOD à l’aide de régularisations multi-niveaux sensibles à la profondeur. 3) L’information de profondeur sert également de carte de pondération des erreurs afin de corriger le processus de segmentation. Grâce à ces conceptions ingénieuses combinées, nous réalisons pour la première fois un cadre unifié sensible à la profondeur, fonctionnant uniquement avec l’entrée RGB lors de l’inférence. Ce cadre surpasser non seulement les performances les plus avancées sur cinq benchmarks publics de SOD RGB, mais également les méthodes basées sur RGB-D sur les mêmes cinq benchmarks, avec un écart significatif, tout en utilisant moins d’informations et en étant plus léger en termes d’implémentation. Le code source et les modèles seront rendus accessibles au public.