Command Palette
Search for a command to run...
UNITER : Représentation universelle de l'image et du texte par apprentissage
UNITER : Représentation universelle de l'image et du texte par apprentissage
Yen-Chun Chen* Linjie Li* Licheng Yu* Ahmed El Kholy Faisal Ahmed Zhe Gan Yu Cheng Jingjing Liu
Résumé
L'embedding d'image et de texte conjoint est la base de la plupart des tâches de Vision et Langage (V+L), où des entrées multimodales sont traitées simultanément pour une compréhension visuelle et textuelle conjointe. Dans cet article, nous présentons UNITER, une représentation universelle d'image et de texte (UNiversal Image-TExt Representation), apprise par un pré-entraînement à grande échelle sur quatre jeux de données image-texte (COCO, Visual Genome, Conceptual Captions et SBU Captions), qui peut alimenter des tâches V+L hétérogènes en aval avec des embeddings multimodaux conjoints. Nous concevons quatre tâches de pré-entraînement : le Modélisation du Langage Masquée (MLM), le Modélisation des Régions Masquées (MRM, avec trois variantes), l'Appariement Image-Texte (ITM) et l'Alignement Mot-Région (WRA). Contrairement aux travaux précédents qui appliquent un masquage aléatoire conjoint aux deux modalités, nous utilisons un masquage conditionnel sur les tâches de pré-entraînement (c'est-à-dire que la modélisation du langage/région masquée est conditionnée par l'observation complète de l'image/texte). En plus de l'ITM pour l'appariement global image-texte, nous proposons également un WRA via l'utilisation du Transport Optimal (OT) afin d'encourager explicitement un alignement fin entre les mots et les régions d'image lors du pré-entraînement. Une analyse approfondie montre que tant le masquage conditionnel que le WRA basé sur OT contribuent à un meilleur pré-entraînement. Nous effectuons également une étude d'ablation exhaustive pour trouver une combinaison optimale des tâches de pré-entraînement. Des expériences étendues démontrent que UNITER atteint un nouveau niveau d'excellence dans six tâches V+L (sur neuf jeux de données), notamment la Réponse Visuelle à des Questions, la Recherche Image-Texte, la Compréhension des Expressions Référentielles, le Raisonnement Visuel Communsensique, l'Entailment Visuel et NLVR2. Le code est disponible à l'adresse https://github.com/ChenRocks/UNITER.