HyperAIHyperAI

Command Palette

Search for a command to run...

VLMo : Pré-entraînement unifié vision-langage avec Mélange d'Experts Multimodaux

Hangbo Bao Wenhui Wang Li Dong Qiang Liu Owais Khan Mohammed Kriti Aggarwal Subhojit Som Furu Wei

Résumé

Nous présentons un modèle préentraîné unifié Vision-Language (VLMo) qui apprend simultanément un encodage dual et un encodage de fusion à l’aide d’un réseau Transformer modulaire. Plus précisément, nous introduisons le Transformer Mixture-of-Modality-Experts (MoME), dans lequel chaque bloc comprend un ensemble d’experts spécifiques aux modalités et une couche partagée d’attention auto-supervisée. Grâce à la flexibilité de modélisation offerte par MoME, le modèle VLMo préentraîné peut être affiné soit comme un encodage de fusion pour des tâches de classification vision-langage, soit utilisé comme encodage dual pour une recherche image-texte efficace. En outre, nous proposons une stratégie de préentraînement par étapes, qui exploite efficacement de grandes quantités de données exclusivement visuelles ou textuelles, en plus des paires image-texte. Les résultats expérimentaux montrent que VLMo atteint des performances de pointe sur diverses tâches vision-langage, notamment la VQA, NLVR2 et la recherche image-texte. Le code source ainsi que les modèles préentraînés sont disponibles à l’adresse https://aka.ms/vlmo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp