LAVT : Transformer de Vision Conscient du Langage pour le Segmentation d'Images Référentielles

La segmentation d'images par référence est une tâche fondamentale de vision-langage qui vise à segmenter un objet mentionné par une expression en langage naturel dans une image. L'un des principaux défis de cette tâche réside dans l'utilisation de l'expression de référence pour mettre en évidence les positions pertinentes dans l'image. Un paradigme pour aborder ce problème consiste à exploiter un décodeur puissant de vision-langage (« multimodal ») afin de fusionner les caractéristiques extraites indépendamment par un encodeur visuel et un encodeur linguistique. Les méthodes récentes ont réalisé des progrès remarquables dans ce paradigme en utilisant des Transformers comme décodeurs multimodaux, en parallèle du succès retentissant des Transformers dans de nombreuses autres tâches de vision-langage.Dans cette étude, nous adoptons une approche différente et montrons que des alignements multimodaux nettement meilleurs peuvent être obtenus grâce à la fusion précoce des caractéristiques linguistiques et visuelles au sein des couches intermédiaires d'un réseau encodeur Transformer visuel. En effectuant la fusion multimodale lors de l'étape d'encodage des caractéristiques visuelles, nous pouvons tirer parti de la capacité éprouvée d'un encodeur Transformer à modéliser les corrélations pour extraire un contexte multimodal utile. De cette manière, des résultats de segmentation précis sont facilement obtenus avec un prédicteur de masque léger. Sans recourir à des techniques complexes, notre méthode surpasse largement les méthodes précédentes state-of-the-art sur RefCOCO, RefCOCO+ et G-Ref.