Détection de la saliency RGB-D préservant la spécificité

La détection d'objets saillants (SOD) sur des images RGB et profonde a suscité un intérêt croissant dans la recherche, en raison de son efficacité et du fait que les informations de profondeur peuvent désormais être facilement capturées. Les modèles existants de SOD RGB-D adoptent généralement différentes stratégies de fusion afin d’apprendre une représentation partagée à partir des deux modalités (c’est-à-dire RGB et profondeur), tandis que très peu de méthodes prennent explicitement en compte la manière de préserver les caractéristiques spécifiques à chaque modalité. Dans cette étude, nous proposons un nouveau cadre, nommé SPNet (réseau préservant la spécificité), qui améliore les performances de la SOD en explorant à la fois les informations communes et les propriétés spécifiques à chaque modalité (par exemple, la spécificité). Plus précisément, nous proposons d’utiliser deux réseaux spécifiques à chaque modalité ainsi qu’un réseau d’apprentissage partagé pour générer respectivement des cartes de saliency individuelles et une carte de saliency partagée. Pour fusionner efficacement les caractéristiques inter-modales dans le réseau d’apprentissage partagé, nous introduisons un module d’intégration croisée améliorée (CIM), puis propageons les caractéristiques fusionnées vers la couche suivante afin d’intégrer des informations à plusieurs niveaux. En outre, pour capter une information multimodale complémentaire riche et ainsi renforcer les performances de la SOD, nous proposons un module d’agrégation de caractéristiques multimodales (MFA), qui intègre les caractéristiques spécifiques à chaque modalité provenant de chaque décodeur individuel dans le décodeur partagé. Grâce à une connexion d’abandon (skip connection), les caractéristiques hiérarchiques entre les couches d’encodeur et de décodeur sont pleinement combinées. Des expériences étendues montrent que notre méthode surpasser les approches de pointe sur six benchmarks populaires de SOD RGB-D et trois benchmarks de détection d’objets camouflés. Le projet est disponible publiquement à l’adresse suivante : https://github.com/taozh2017/SPNet.