il y a 2 mois

BLIP-2 : Amélioration de l'entraînement conjoint des modèles linguistiques et visuels avec des encodeurs d'image figés et des grands modèles linguistiques

Li, Junnan ; Li, Dongxu ; Savarese, Silvio ; Hoi, Steven

Résumé

Le coût de l'entraînement préalable des modèles de vision et de langage devient de plus en plus prohibitif en raison de l'entraînement intégral de modèles à grande échelle. Cet article propose BLIP-2, une stratégie d'entraînement préalable générique et efficace qui utilise des encodeurs d'images pré-entraînés et figés (frozen) ainsi que des grands modèles de langage figés pour amorcer l'entraînement préalable de la vision et du langage. BLIP-2 comble le fossé entre les modalités grâce à un Transformers d'Interrogation léger (Querying Transformer), qui est entraîné préalablement en deux étapes. La première étape amorce l'apprentissage des représentations vision-langage à partir d'un encodeur d'images figé. La deuxième étape amorce l'apprentissage génératif vision-vers-langage à partir d'un modèle de langage figé. Malgré un nombre significativement moindre de paramètres entraînables par rapport aux méthodes existantes, BLIP-2 atteint des performances au niveau de l'état de l'art sur diverses tâches de vision-langage. Par exemple, notre modèle surpasse Flamingo80B de 8,7 % sur VQAv2 en zéro-shot avec 54 fois moins de paramètres entraînables. Nous démontrons également les capacités émergentes du modèle en génération zéro-shot image-vers-texte, capable de suivre des instructions en langage naturel.