Transformateur pour la détection d'objets co-salisants avec extraction discriminative de la co-saliences et du fond

La plupart des travaux précédents sur la détection d'objets co-salisants se concentrent principalement sur l'extraction de signaux co-salisants en exploitant les relations de cohérence entre les images, tout en négligeant une exploration explicite des régions de fond. Dans cet article, nous proposons un cadre de transformation pour l'exploration discriminante des objets co-salisants et du fond (DMT) basé sur plusieurs modules de corrélation multi-grain économiques, afin d'extraire explicitement à la fois les informations co-salisantes et de fond et de modéliser efficacement leur discrimination. Plus précisément, nous introduisons d'abord un module de corrélation région-région pour intégrer les relations inter-images aux caractéristiques de segmentation pixel-par-pixel tout en maintenant l'efficacité computationnelle. Ensuite, nous utilisons deux types de jetons prédéfinis pour extraire les informations co-salisantes et de fond grâce à nos modules de corrélation pixel-jeton induite par contraste et de corrélation jeton-jeton co-salissante. Nous avons également conçu un module d'affinement des caractéristiques guidé par les jetons pour améliorer la discernabilité des caractéristiques de segmentation sous la direction des jetons appris. Nous effectuons une promotion mutuelle itérative pour l'extraction des caractéristiques de segmentation et la construction des jetons. Les résultats expérimentaux sur trois jeux de données de référence montrent l'efficacité de notre méthode proposée. Le code source est disponible à l'adresse suivante : https://github.com/dragonlee258079/DMT.