Vision-Language Transformer et Génération de Requêtes pour la Segmentation de Référence

Dans cette étude, nous abordons la tâche complexe de la segmentation référentielle. L'expression de requête dans la segmentation référentielle indique généralement l'objet cible en décrivant sa relation avec d'autres objets. Par conséquent, pour identifier l'objet cible parmi toutes les instances présentes dans l'image, le modèle doit avoir une compréhension globale de l'image entière. Pour atteindre cet objectif, nous reformulons la segmentation référentielle comme un problème d'attention directe : trouver la région de l'image où l'expression linguistique de la requête est le plus focalisée. Nous introduisons les transformateurs et l'attention multi-têtes pour construire un réseau doté d'une architecture de mécanisme d'attention encodeur-décodeur qui "interroge" l'image donnée à travers l'expression linguistique. De plus, nous proposons un module de génération de requêtes (Query Generation Module) qui produit plusieurs ensembles de requêtes avec des poids d'attention différents, représentant des compréhensions diversifiées de l'expression linguistique sous différents angles. En même temps, pour sélectionner la meilleure approche parmi ces compréhensions diversifiées en se basant sur des indices visuels, nous proposons également un module d'équilibrage des requêtes (Query Balance Module) qui sélectionne adaptativement les caractéristiques de sortie de ces requêtes afin d'améliorer la génération du masque. Sans recourir à des techniques superflues, notre méthode est légère et obtient des performances inédites et cohérentes sur trois jeux de données de segmentation référentielle : RefCOCO, RefCOCO+ et G-Ref. Notre code est disponible à l'adresse suivante : https://github.com/henghuiding/Vision-Language-Transformer.