HyperAIHyperAI
il y a 2 mois

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt

Shilong Zhang; Peize Sun; Shoufa Chen; Min Xiao; Wenqi Shao; Wenwei Zhang; Yu Liu; Kai Chen; Ping Luo
GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt
Résumé

L'ajustement des instructions visuelles dans les grands modèles de langage (LLM) sur des paires d'images et de texte a permis d'atteindre des capacités générales en vision et en langage. Cependant, le manque de paires de régions et de texte limite leurs progrès en matière de compréhension multimodale fine. Dans cet article, nous proposons l'ajustement spatial des instructions, qui introduit une référence à la région d'intérêt (RoI) dans l'instruction. Avant d'être envoyée au LLM, la référence est remplacée par les caractéristiques de la RoI et entrelacée avec les plongements linguistiques sous forme de séquence. Notre modèle GPT4RoI, formé sur 7 jeux de données de paires de régions et de texte, offre une expérience interactive et conversationnelle sans précédent par rapport aux modèles précédents basés sur les images.(1) Interaction au-delà du langage : Les utilisateurs peuvent interagir avec notre modèle non seulement par le biais du langage, mais aussi en dessinant des boîtes englobantes pour ajuster flexiblement la granularité des références.(2) Capacités multimodales polyvalentes : GPT4RoI peut extraire une variété d'informations attributives au sein de chaque RoI, telles que la couleur, la forme, le matériau, l'action, etc. De plus, il peut raisonner sur plusieurs RoIs en se basant sur le sens commun. Sur le jeu de données Visual Commonsense Reasoning (VCR), GPT4RoI atteint une précision remarquable de 81,6 %, surpassant tous les modèles existants avec une marge significative (le deuxième meilleur score est de 75,6 %) et presque égalant les performances humaines de 85,0 %. Le code source et le modèle sont disponibles à l'adresse suivante : https://github.com/jshilong/GPT4RoI.

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt | Articles de recherche récents | HyperAI