Représentation détaillée du fond pour la segmentation sémantique faiblement supervisée

La génération de masques pseudo-fiables à partir d'étiquettes au niveau de l'image est un défi dans la tâche de segmentation sémantique faiblement supervisée (WSSS) en raison du manque d'informations spatiales. Les solutions basées sur les cartes d'activation de classe (CAM) couramment utilisées sont confrontées à des difficultés pour discriminer les objets du premier plan (FG) des pixels suspects du fond (BG) (également appelés co-occurrents) et pour apprendre les régions intégrales des objets. Cet article propose une méthode simple de représentation fine du fond (FBR) visant à découvrir et représenter diverses sémantiques BG et à résoudre les problèmes de co-occurrence. Nous abandonnons l'utilisation du prototype de classe ou des caractéristiques au niveau des pixels pour la représentation BG. À la place, nous développons un nouveau primitif, la région d'intérêt négative (NROI), pour capturer les informations sémantiques fines du fond et effectuer une comparaison pixel-NROI afin de distinguer les pixels BG confondants. Nous présentons également une stratégie d'échantillonnage actif pour extraire les négatifs FG en temps réel, permettant un apprentissage par contraste efficace au sein du premier plan pour activer toute la région de l'objet. Grâce à sa simplicité de conception et à sa facilité d'utilisation, notre méthode proposée peut être intégrée sans heurts dans divers modèles, produisant ainsi des résultats nouveaux et meilleurs que l'état de l'art sous diverses configurations WSSS sur plusieurs bancs d'essai. En ne s'appuyant que sur des étiquettes au niveau de l'image (I) comme supervision, notre méthode atteint des résultats de segmentation avec un mIoU de 73,2 % et 45,6 % sur les ensembles de tests Pascal Voc et MS COCO, respectivement. De plus, en incorporant des cartes de saillance comme signal supplémentaire de supervision (I+S), nous obtenons un mIoU de 74,9 % sur l'ensemble de tests Pascal Voc. Parallèlement, notre approche FBR montre des gains significatifs en termes de performance dans les tâches de segmentation d'instances faiblement supervisées (WSIS), démontrant sa robustesse et ses capacités généralisantes solides dans divers domaines.