HyperAIHyperAI
il y a 2 mois

ViLBERT : Préparation de Représentations Visiolinguistiques Indépendantes des Tâches pour les Tâches de Vision et Langage

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee
ViLBERT : Préparation de Représentations Visiolinguistiques Indépendantes des Tâches pour les Tâches de Vision et Langage
Résumé

Nous présentons ViLBERT (abréviation de Vision-and-Language BERT), un modèle pour l'apprentissage de représentations conjointes indépendantes des tâches, combinant le contenu visuel et la langue naturelle. Nous étendons l'architecture BERT, largement utilisée, à un modèle multimodal à deux flux, traitant les entrées visuelles et textuelles dans des flux distincts qui interagissent par le biais de couches de transformateur co-attentionnelles. Notre modèle est pré-entraîné à travers deux tâches intermédiaires sur le grand ensemble de données Conceptual Captions, collecté automatiquement, puis transféré à plusieurs tâches établies en vision et langage – réponse aux questions visuelles, raisonnement communautaire visuel, expressions référentielles et recherche d'images basée sur les légendes – avec seulement des ajouts mineurs à l'architecture de base. Nous observons des améliorations significatives dans toutes les tâches par rapport aux modèles spécifiques existants – atteignant l'état de l'art dans les quatre tâches. Notre travail marque une transition vers un apprentissage des correspondances entre la vision et la langue non seulement comme partie intégrante de la formation aux tâches, mais aussi en considérant le lien visuel comme une capacité pré-entraînable et transférable.