Caractéristiques textuelles sensibles à la vision dans le segmention d'images par référence : de la compréhension des objets à la compréhension du contexte

La segmentation d'images par référence est une tâche complexe qui consiste à générer des masques de segmentation au niveau des pixels en fonction de descriptions en langage naturel. La difficulté de cette tâche augmente avec la complexité des phrases fournies. Les méthodes existantes se sont principalement appuyées sur les caractéristiques visuelles pour générer les masques de segmentation, en traitant les caractéristiques textuelles comme des éléments secondaires. Cependant, cette sous-utilisation de la compréhension du texte limite la capacité du modèle à pleinement saisir les expressions données. Dans ce travail, nous proposons un cadre novateur qui met particulièrement l'accent sur la compréhension des objets et du contexte, inspiré par les processus cognitifs humains, grâce aux Caractéristiques Textuelles Conscientes de la Vision (Vision-Aware Text Features). Premièrement, nous introduisons un module Prior CLIP pour localiser l'objet principal d'intérêt et intégrer la carte thermique de l'objet dans le processus d'initialisation des requêtes. Deuxièmement, nous suggérons une combinaison de deux composants : Décodage Multimodal Contextuel et Contrainte de Cohérence Sémantique, afin d'améliorer davantage l'interprétation cohérente et consistante des indices linguistiques avec la compréhension contextuelle obtenue à partir de l'image. Notre méthode obtient des améliorations significatives des performances sur trois jeux de données de référence : RefCOCO, RefCOCO+ et G-Ref. Page du projet : \url{https://vatex.hkustvgd.com/}.