GSVA : Segmentation Généralisée via des Modèles de Langue Multimodaux de Grande Taille

Le Segmentation de Phrases Référentielles Généralisée (GRES) étend la portée des méthodes classiques de RES pour faire référence à plusieurs objets dans une seule expression ou identifier les cibles absentes dans l'image. Le GRES pose des défis en matière de modélisation des relations spatiales complexes entre les instances présentes dans l'image et d'identification des référents non existants. Les Modèles Linguistiques Multimodaux à Grande Échelle (MLLMs) ont récemment montré des progrès considérables dans ces tâches complexes liées à la vision et au langage. En reliant les Modèles Linguistiques à Grande Échelle (LLMs) et les modèles de vision, les MLLMs sont compétents pour comprendre des contextes avec des entrées visuelles. Parmi eux, LISA, en tant que représentant, utilise un jeton spécial [SEG] pour inciter un décodeur de masque de segmentation, par exemple SAM, afin d'activer les MLLMs dans la tâche de RES. Cependant, les solutions actuelles du GRES restent insatisfaisantes car les MLLMs actuels de segmentation ne peuvent pas traiter correctement les cas où les utilisateurs peuvent faire référence à plusieurs sujets dans une seule requête ou fournir des descriptions incohérentes avec toute cible d'image. Dans cet article, nous proposons le Assistant Visuel de Segmentation Généralisée (GSVA) pour combler cette lacune. Plus précisément, GSVA réutilise le jeton [SEG] pour inciter le modèle de segmentation à supporter simultanément plusieurs références de masques et apprend innovamment à générer un jeton [REJ] pour rejeter explicitement les cibles nulles. Les expériences valident l'efficacité de GSVA dans la résolution du problème GRES, marquant une amélioration notable et établissant un nouveau record sur le jeu de données gRefCOCO du benchmark GRES. GSVA s'avère également efficace dans diverses tâches classiques de segmentation référentielle et de compréhension.