HyperAIHyperAI
il y a 11 jours

VLT : Vision-Language Transformer et génération de requêtes pour la segmentation référentielle

Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang
VLT : Vision-Language Transformer et génération de requêtes pour la segmentation référentielle
Résumé

Nous proposons un cadre Vision-Language Transformer (VLT) pour la segmentation par référence, visant à favoriser des interactions profondes entre les informations multimodales et à améliorer la compréhension globale des caractéristiques vision-langage. Il existe différentes façons de saisir l’accent dynamique d’une expression linguistique, en particulier lors de l’interaction avec une image. Toutefois, les requêtes apprises dans les travaux existants sur les transformateurs sont fixes après l’entraînement, ce qui les rend incapables de faire face à la randomisation et à la grande diversité des expressions linguistiques. Pour résoudre ce problème, nous introduisons un module de génération de requêtes, qui produit dynamiquement plusieurs ensembles de requêtes spécifiques à l’entrée, afin de représenter les diverses interprétations possibles d’une expression linguistique. Pour identifier la meilleure parmi ces interprétations multiples, afin de générer un masque plus précis, nous proposons un module d’équilibrage des requêtes, qui fusionne sélectivement les réponses correspondantes de l’ensemble des requêtes. En outre, afin d’améliorer la capacité du modèle à traiter des expressions linguistiques variées, nous introduisons un apprentissage inter-échantillons, visant à doter explicitement le modèle de connaissances sur la compréhension de différentes expressions linguistiques désignant le même objet. Nous utilisons une stratégie d’apprentissage contrastif masqué pour rapprocher les représentations des différentes expressions relatives au même objet tout en les distinguant clairement des représentations d’objets différents. L’approche proposée est légère et atteint de manière cohérente des résultats de segmentation par référence de nouvelle génération sur cinq jeux de données.