il y a 2 mois

InstructBLIP : Vers des modèles vision-langue polyvalents avec l’ajustement des instructions

Wenliang Dai; Junnan Li; Dongxu Li; Anthony Meng Huat Tiong; Junqi Zhao; Weisheng Wang; Boyang Li; Pascale Fung; Steven Hoi

Voir les détails de l'article

InstructBLIP : Vers des modèles vision-langue polyvalents avec l’ajustement des instructions

Résumé

La formation à grande échelle et l'ajustement des instructions ont connu un succès notable dans la création de modèles de langage polyvalents dotés d'une compétence étendue. Cependant, la construction de modèles visuels-linguistiques polyvalents est un défi en raison des distributions d'entrée riches et de la diversité des tâches résultant de l'apport supplémentaire d'informations visuelles. Bien que la formation préalable visuelle-linguistique ait été largement étudiée, l'ajustement des instructions visuelles-linguistiques reste sous-exploré. Dans cet article, nous menons une étude systématique et complète sur l'ajustement des instructions visuelles-linguistiques basé sur les modèles BLIP-2 préformés. Nous rassemblons 26 jeux de données publiquement disponibles, couvrant une large variété de tâches et de capacités, et les transformons en format d'ajustement des instructions. De plus, nous introduisons un Query Transformer sensible aux instructions (instruction-aware Query Transformer), qui extrait des caractéristiques informatives adaptées à l'instruction donnée. Formé sur 13 jeux de données internes, InstructBLIP atteint des performances sans supervision (zero-shot) d'avant-garde sur tous les 13 jeux de données externes, surpassant considérablement BLIP-2 et les modèles Flamingo plus grands. Nos modèles obtiennent également des performances d'avant-garde lorsqu'ils sont affinés pour des tâches spécifiques en aval (par exemple, 90,7 % de précision sur les questions ScienceQA avec contextes visuels). En outre, nous démontrons qualitativement les avantages d'InstructBLIP par rapport aux modèles multimodaux concurrents. Tous les modèles InstructBLIP sont open-source et disponibles sur https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.