il y a 8 mois

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

L'ajustement des instructions visuelles dans les grands modèles de langage (LLM) sur des paires d'images et de texte a permis d'atteindre des capacités générales en vision et en langage. Cependant, le manque de paires de régions et de texte limite leurs progrès en matière de compréhension multimodale fine. Dans cet article, nous proposons l'ajustement spatial des instructions, qui introduit une référence à la région d'intérêt (RoI) dans l'instruction. Avant d'être envoyée au LLM, la référence est remplacée par les caractéristiques de la RoI et entrelacée avec les plongements linguistiques sous forme de séquence. Notre modèle GPT4RoI, formé sur 7 jeux de données de paires de régions et de texte, offre une expérience interactive et conversationnelle sans précédent par rapport aux modèles précédents basés sur les images.(1) Interaction au-delà du langage : Les utilisateurs peuvent interagir avec notre modèle non seulement par le biais du langage, mais aussi en dessinant des boîtes englobantes pour ajuster flexiblement la granularité des références.(2) Capacités multimodales polyvalentes : GPT4RoI peut extraire une variété d'informations attributives au sein de chaque RoI, telles que la couleur, la forme, le matériau, l'action, etc. De plus, il peut raisonner sur plusieurs RoIs en se basant sur le sens commun. Sur le jeu de données Visual Commonsense Reasoning (VCR), GPT4RoI atteint une précision remarquable de 81,6 %, surpassant tous les modèles existants avec une marge significative (le deuxième meilleur score est de 75,6 %) et presque égalant les performances humaines de 85,0 %. Le code source et le modèle sont disponibles à l'adresse suivante : https://github.com/jshilong/GPT4RoI.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GPT4RoI : Ajustement d'un grand modèle de langage sur la région d'intérêt

Shilong Zhang extsuperscript1 extsuperscript* Peize Sun extsuperscript1 extsuperscript* Shoufa Chen extsuperscript1 extsuperscript* Min Xiao extsuperscript2 Wenqi Shao extsuperscript2 Wenwei Zhang extsuperscript2 Yu Liu extsuperscript3 Kai Chen extsuperscript3 Ping Luo extsuperscript2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters