HyperAIHyperAI

Command Palette

Search for a command to run...

UNITER : Représentation universelle de l'image et du texte par apprentissage

Yen-Chun Chen* Linjie Li* Licheng Yu* Ahmed El Kholy Faisal Ahmed Zhe Gan Yu Cheng Jingjing Liu

Résumé

L'embedding d'image et de texte conjoint est la base de la plupart des tâches de Vision et Langage (V+L), où des entrées multimodales sont traitées simultanément pour une compréhension visuelle et textuelle conjointe. Dans cet article, nous présentons UNITER, une représentation universelle d'image et de texte (UNiversal Image-TExt Representation), apprise par un pré-entraînement à grande échelle sur quatre jeux de données image-texte (COCO, Visual Genome, Conceptual Captions et SBU Captions), qui peut alimenter des tâches V+L hétérogènes en aval avec des embeddings multimodaux conjoints. Nous concevons quatre tâches de pré-entraînement : le Modélisation du Langage Masquée (MLM), le Modélisation des Régions Masquées (MRM, avec trois variantes), l'Appariement Image-Texte (ITM) et l'Alignement Mot-Région (WRA). Contrairement aux travaux précédents qui appliquent un masquage aléatoire conjoint aux deux modalités, nous utilisons un masquage conditionnel sur les tâches de pré-entraînement (c'est-à-dire que la modélisation du langage/région masquée est conditionnée par l'observation complète de l'image/texte). En plus de l'ITM pour l'appariement global image-texte, nous proposons également un WRA via l'utilisation du Transport Optimal (OT) afin d'encourager explicitement un alignement fin entre les mots et les régions d'image lors du pré-entraînement. Une analyse approfondie montre que tant le masquage conditionnel que le WRA basé sur OT contribuent à un meilleur pré-entraînement. Nous effectuons également une étude d'ablation exhaustive pour trouver une combinaison optimale des tâches de pré-entraînement. Des expériences étendues démontrent que UNITER atteint un nouveau niveau d'excellence dans six tâches V+L (sur neuf jeux de données), notamment la Réponse Visuelle à des Questions, la Recherche Image-Texte, la Compréhension des Expressions Référentielles, le Raisonnement Visuel Communsensique, l'Entailment Visuel et NLVR2^22. Le code est disponible à l'adresse https://github.com/ChenRocks/UNITER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp