BLIP-2 : Amélioration de l'entraînement conjoint des modèles linguistiques et visuels avec des encodeurs d'image figés et des grands modèles linguistiques

Le coût de l'entraînement préalable des modèles de vision et de langage devient de plus en plus prohibitif en raison de l'entraînement intégral de modèles à grande échelle. Cet article propose BLIP-2, une stratégie d'entraînement préalable générique et efficace qui utilise des encodeurs d'images pré-entraînés et figés (frozen) ainsi que des grands modèles de langage figés pour amorcer l'entraînement préalable de la vision et du langage. BLIP-2 comble le fossé entre les modalités grâce à un Transformers d'Interrogation léger (Querying Transformer), qui est entraîné préalablement en deux étapes. La première étape amorce l'apprentissage des représentations vision-langage à partir d'un encodeur d'images figé. La deuxième étape amorce l'apprentissage génératif vision-vers-langage à partir d'un modèle de langage figé. Malgré un nombre significativement moindre de paramètres entraînables par rapport aux méthodes existantes, BLIP-2 atteint des performances au niveau de l'état de l'art sur diverses tâches de vision-langage. Par exemple, notre modèle surpasse Flamingo80B de 8,7 % sur VQAv2 en zéro-shot avec 54 fois moins de paramètres entraînables. Nous démontrons également les capacités émergentes du modèle en génération zéro-shot image-vers-texte, capable de suivre des instructions en langage naturel.