HyperAIHyperAI

Command Palette

Search for a command to run...

GROUNDHOG : Ancre des grands modèles de langage à la segmentation holistique

Zhiyue Zhang Yuxuan Chen Yuhang Jiang Jianwei Yang Xiaowei Li

Résumé

La plupart des grands modèles multimodaux (MM-LMs) apprennent l'ancrage langage-objet par le biais du modèle de langage causale, où les objets ancrés sont capturés par des boîtes englobantes sous forme de séquences de jetons de localisation. Ce paradigme manque de représentations au niveau des pixels, qui sont essentielles pour une compréhension visuelle fine et une diagnostics précis. Dans ce travail, nous présentons GROUNDHOG, un MM-LM développé en ancrant les grands modèles de langage à la segmentation holistique. GROUNDHOG intègre un extracteur de caractéristiques masqué et convertit les caractéristiques extraites en jetons d'entités visuelles pour le tronc commun du MM-LM, qui relie ensuite les phrases ancrables à des masques d'ancrage unifiés en récupérant et en fusionnant les masques d'entités. Pour entraîner GROUNDHOG, nous avons soigneusement constitué M3G2, un jeu de données d'ajustement d'instructions visuelles ancrées avec un Ancrage Multimodal Multi-Grain (Multi-Modal Multi-Grained Grounding), en collectant une série de jeux de données ancrés à la segmentation dotés d'annotations riches. Nos résultats expérimentaux montrent que GROUNDHOG atteint des performances supérieures sur diverses tâches d'ancrage linguistique sans ajustement fin spécifique à la tâche, et réduit considérablement l'hallucination des objets. GROUNDHOG démontre également une meilleure capacité d'ancrage pour des formes complexes d'entrée visuelle et fournit des diagnostics faciles à comprendre dans les cas d'échec.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GROUNDHOG : Ancre des grands modèles de langage à la segmentation holistique | Articles | HyperAI