HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP-2 : Amélioration de l'entraînement conjoint des modèles linguistiques et visuels avec des encodeurs d'image figés et des grands modèles linguistiques

Junnan Li Dongxu Li Silvio Savarese Steven Hoi

Résumé

Le coût de l'entraînement préalable des modèles de vision et de langage devient de plus en plus prohibitif en raison de l'entraînement intégral de modèles à grande échelle. Cet article propose BLIP-2, une stratégie d'entraînement préalable générique et efficace qui utilise des encodeurs d'images pré-entraînés et figés (frozen) ainsi que des grands modèles de langage figés pour amorcer l'entraînement préalable de la vision et du langage. BLIP-2 comble le fossé entre les modalités grâce à un Transformers d'Interrogation léger (Querying Transformer), qui est entraîné préalablement en deux étapes. La première étape amorce l'apprentissage des représentations vision-langage à partir d'un encodeur d'images figé. La deuxième étape amorce l'apprentissage génératif vision-vers-langage à partir d'un modèle de langage figé. Malgré un nombre significativement moindre de paramètres entraînables par rapport aux méthodes existantes, BLIP-2 atteint des performances au niveau de l'état de l'art sur diverses tâches de vision-langage. Par exemple, notre modèle surpasse Flamingo80B de 8,7 % sur VQAv2 en zéro-shot avec 54 fois moins de paramètres entraînables. Nous démontrons également les capacités émergentes du modèle en génération zéro-shot image-vers-texte, capable de suivre des instructions en langage naturel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp