HyperAIHyperAI

Command Palette

Search for a command to run...

InstructBLIP : Vers des modèles vision-langue polyvalents avec l’ajustement des instructions

Wenliang Dai Junnan Li Dongxu Li Anthony Meng Huat Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung Steven Hoi

Résumé

La formation à grande échelle et l'ajustement des instructions ont connu un succès notable dans la création de modèles de langage polyvalents dotés d'une compétence étendue. Cependant, la construction de modèles visuels-linguistiques polyvalents est un défi en raison des distributions d'entrée riches et de la diversité des tâches résultant de l'apport supplémentaire d'informations visuelles. Bien que la formation préalable visuelle-linguistique ait été largement étudiée, l'ajustement des instructions visuelles-linguistiques reste sous-exploré. Dans cet article, nous menons une étude systématique et complète sur l'ajustement des instructions visuelles-linguistiques basé sur les modèles BLIP-2 préformés. Nous rassemblons 26 jeux de données publiquement disponibles, couvrant une large variété de tâches et de capacités, et les transformons en format d'ajustement des instructions. De plus, nous introduisons un Query Transformer sensible aux instructions (instruction-aware Query Transformer), qui extrait des caractéristiques informatives adaptées à l'instruction donnée. Formé sur 13 jeux de données internes, InstructBLIP atteint des performances sans supervision (zero-shot) d'avant-garde sur tous les 13 jeux de données externes, surpassant considérablement BLIP-2 et les modèles Flamingo plus grands. Nos modèles obtiennent également des performances d'avant-garde lorsqu'ils sont affinés pour des tâches spécifiques en aval (par exemple, 90,7 % de précision sur les questions ScienceQA avec contextes visuels). En outre, nous démontrons qualitativement les avantages d'InstructBLIP par rapport aux modèles multimodaux concurrents. Tous les modèles InstructBLIP sont open-source et disponibles sur https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp