Appariement d’images multilingue par question-réponse pour une segmentation sémantique faiblement supervisée

La carte d'activation de classe (Class Activation Map, CAM) est devenue un outil populaire pour la segmentation sémantique faiblement supervisée (WSSS), permettant de localiser les régions d'objets dans une image à l'aide uniquement d'étiquettes au niveau de l'image. Toutefois, les méthodes existantes de CAM souffrent d'une sous-activation des régions d'objets cibles et d'une activation erronée des régions de fond, en raison du manque de supervision détaillée qui limite la capacité du modèle à comprendre globalement l'image. Dans cet article, nous proposons un nouveau cadre intitulé Question-Answer Cross-Language-Image Matching pour la WSSS (QA-CLIMS), exploitant un modèle fondamental vision-langage afin de maximiser la compréhension textuelle des images et de guider la génération des cartes d'activation. Tout d'abord, une série de questions soigneusement conçues est posée au modèle de réponse à questions visuelles (VQA) via une ingénierie de prompts question-réponse (QAPE), afin de générer un corpus comprenant à la fois des objets de premier plan (cibles) et des arrière-plans adaptés aux images interrogées. Ensuite, nous utilisons un apprentissage contrastif dans un réseau de contraste image-texte par région (Region Image Text Contrastive, RITC) pour comparer les régions de premier plan et d'arrière-plan obtenues avec ce corpus généré. Notre approche exploite l'information textuelle riche provenant d'un vocabulaire ouvert comme une supervision supplémentaire, permettant au modèle de produire des CAM de haute qualité, avec des régions d'objets plus complètes et une réduction de l'activation erronée des régions de fond. Nous menons une analyse approfondie pour valider la méthode proposée, et montrons que notre approche atteint l'état de l'art sur les jeux de données PASCAL VOC 2012 et MS COCO. Le code est disponible à l'adresse suivante : https://github.com/CVI-SZU/QA-CLIMS