Unicoder-VL : Un encodeur universel pour la vision et le langage par pré-entraînement croisé

Nous proposons Unicoder-VL, un encodeur universel visant à apprendre des représentations conjointes de la vision et du langage par pré-entraînement. En s'inspirant des modèles pré-entraînés interlinguistiques tels que XLM et Unicoder, les contenus visuels et linguistiques sont simultanément alimentés dans un Transformers multicouche pour le pré-entraînement intermodal, où trois tâches de pré-entraînement sont utilisées : le Modélisation de Langue Masquée (MLM), la Classification d'Objets Masqués (MOC) et l'Appariement Visuel-Linguistique (VLM). Les deux premières tâches apprennent des représentations contextuelles pour les jetons d'entrée en se basant conjointement sur les contenus linguistiques et visuels. La dernière tâche cherche à prédire si une image et un texte se décrivent mutuellement. Après le pré-entraînement sur de grandes échelles de paires image-légende, nous transférons Unicoder-VL à la recherche d'image-texte basée sur les légendes et au raisonnement de sens commun visuel, avec simplement une couche de sortie supplémentaire. Nous obtenons des résultats de pointe ou comparables aux meilleurs dans ces deux tâches, démontrant ainsi la puissante capacité du pré-entraînement intermodal.