HyperAIHyperAI

Command Palette

Search for a command to run...

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

L'ajustement des instructions visuelles dans les grands modèles de langage (LLM) sur des paires d'images et de texte a permis d'atteindre des capacités générales en vision et en langage. Cependant, le manque de paires de régions et de texte limite leurs progrès en matière de compréhension multimodale fine. Dans cet article, nous proposons l'ajustement spatial des instructions, qui introduit une référence à la région d'intérêt (RoI) dans l'instruction. Avant d'être envoyée au LLM, la référence est remplacée par les caractéristiques de la RoI et entrelacée avec les plongements linguistiques sous forme de séquence. Notre modèle GPT4RoI, formé sur 7 jeux de données de paires de régions et de texte, offre une expérience interactive et conversationnelle sans précédent par rapport aux modèles précédents basés sur les images.(1) Interaction au-delà du langage : Les utilisateurs peuvent interagir avec notre modèle non seulement par le biais du langage, mais aussi en dessinant des boîtes englobantes pour ajuster flexiblement la granularité des références.(2) Capacités multimodales polyvalentes : GPT4RoI peut extraire une variété d'informations attributives au sein de chaque RoI, telles que la couleur, la forme, le matériau, l'action, etc. De plus, il peut raisonner sur plusieurs RoIs en se basant sur le sens commun. Sur le jeu de données Visual Commonsense Reasoning (VCR), GPT4RoI atteint une précision remarquable de 81,6 %, surpassant tous les modèles existants avec une marge significative (le deuxième meilleur score est de 75,6 %) et presque égalant les performances humaines de 85,0 %. Le code source et le modèle sont disponibles à l'adresse suivante : https://github.com/jshilong/GPT4RoI.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp