VLMo : Pré-entraînement unifié vision-langage avec Mélange d'Experts Multimodaux

Nous présentons un modèle préentraîné unifié Vision-Language (VLMo) qui apprend simultanément un encodage dual et un encodage de fusion à l’aide d’un réseau Transformer modulaire. Plus précisément, nous introduisons le Transformer Mixture-of-Modality-Experts (MoME), dans lequel chaque bloc comprend un ensemble d’experts spécifiques aux modalités et une couche partagée d’attention auto-supervisée. Grâce à la flexibilité de modélisation offerte par MoME, le modèle VLMo préentraîné peut être affiné soit comme un encodage de fusion pour des tâches de classification vision-langage, soit utilisé comme encodage dual pour une recherche image-texte efficace. En outre, nous proposons une stratégie de préentraînement par étapes, qui exploite efficacement de grandes quantités de données exclusivement visuelles ou textuelles, en plus des paires image-texte. Les résultats expérimentaux montrent que VLMo atteint des performances de pointe sur diverses tâches vision-langage, notamment la VQA, NLVR2 et la recherche image-texte. Le code source ainsi que les modèles préentraînés sont disponibles à l’adresse https://aka.ms/vlmo.