il y a 2 mois

UNITER : Représentation universelle de l'image et du texte par apprentissage

Yen-Chun Chen; Linjie Li; Licheng Yu; Ahmed El Kholy; Faisal Ahmed; Zhe Gan; Yu Cheng; Jingjing Liu

Résumé

L'embedding d'image et de texte conjoint est la base de la plupart des tâches de Vision et Langage (V+L), où des entrées multimodales sont traitées simultanément pour une compréhension visuelle et textuelle conjointe. Dans cet article, nous présentons UNITER, une représentation universelle d'image et de texte (UNiversal Image-TExt Representation), apprise par un pré-entraînement à grande échelle sur quatre jeux de données image-texte (COCO, Visual Genome, Conceptual Captions et SBU Captions), qui peut alimenter des tâches V+L hétérogènes en aval avec des embeddings multimodaux conjoints. Nous concevons quatre tâches de pré-entraînement : le Modélisation du Langage Masquée (MLM), le Modélisation des Régions Masquées (MRM, avec trois variantes), l'Appariement Image-Texte (ITM) et l'Alignement Mot-Région (WRA). Contrairement aux travaux précédents qui appliquent un masquage aléatoire conjoint aux deux modalités, nous utilisons un masquage conditionnel sur les tâches de pré-entraînement (c'est-à-dire que la modélisation du langage/région masquée est conditionnée par l'observation complète de l'image/texte). En plus de l'ITM pour l'appariement global image-texte, nous proposons également un WRA via l'utilisation du Transport Optimal (OT) afin d'encourager explicitement un alignement fin entre les mots et les régions d'image lors du pré-entraînement. Une analyse approfondie montre que tant le masquage conditionnel que le WRA basé sur OT contribuent à un meilleur pré-entraînement. Nous effectuons également une étude d'ablation exhaustive pour trouver une combinaison optimale des tâches de pré-entraînement. Des expériences étendues démontrent que UNITER atteint un nouveau niveau d'excellence dans six tâches V+L (sur neuf jeux de données), notamment la Réponse Visuelle à des Questions, la Recherche Image-Texte, la Compréhension des Expressions Référentielles, le Raisonnement Visuel Communsensique, l'Entailment Visuel et NLVR$^2$. Le code est disponible à l'adresse https://github.com/ChenRocks/UNITER.