GROUNDHOG : Ancre des grands modèles de langage à la segmentation holistique

La plupart des grands modèles multimodaux (MM-LMs) apprennent l'ancrage langage-objet par le biais du modèle de langage causale, où les objets ancrés sont capturés par des boîtes englobantes sous forme de séquences de jetons de localisation. Ce paradigme manque de représentations au niveau des pixels, qui sont essentielles pour une compréhension visuelle fine et une diagnostics précis. Dans ce travail, nous présentons GROUNDHOG, un MM-LM développé en ancrant les grands modèles de langage à la segmentation holistique. GROUNDHOG intègre un extracteur de caractéristiques masqué et convertit les caractéristiques extraites en jetons d'entités visuelles pour le tronc commun du MM-LM, qui relie ensuite les phrases ancrables à des masques d'ancrage unifiés en récupérant et en fusionnant les masques d'entités. Pour entraîner GROUNDHOG, nous avons soigneusement constitué M3G2, un jeu de données d'ajustement d'instructions visuelles ancrées avec un Ancrage Multimodal Multi-Grain (Multi-Modal Multi-Grained Grounding), en collectant une série de jeux de données ancrés à la segmentation dotés d'annotations riches. Nos résultats expérimentaux montrent que GROUNDHOG atteint des performances supérieures sur diverses tâches d'ancrage linguistique sans ajustement fin spécifique à la tâche, et réduit considérablement l'hallucination des objets. GROUNDHOG démontre également une meilleure capacité d'ancrage pour des formes complexes d'entrée visuelle et fournit des diagnostics faciles à comprendre dans les cas d'échec.