Aligner avant de Fusionner : Apprentissage de Représentations Visuelles et Linguistiques avec Distillation par la Dynamique

L'apprentissage de représentations à grande échelle pour la vision et le langage a montré des améliorations prometteuses dans diverses tâches de vision-langage. La plupart des méthodes existantes utilisent un encodeur multimodal basé sur les transformers pour modéliser conjointement les jetons visuels (caractéristiques d'images basées sur des régions) et les jetons lexicaux. Étant donné que les jetons visuels et lexicaux ne sont pas alignés, il est difficile pour l'encodeur multimodal d'apprendre les interactions entre l'image et le texte. Dans cet article, nous introduisons une perte contrastive pour Aligner les représentations d'images et de textes Avant leur Fusion (ALBEF) par l'attention croisée, ce qui permet un apprentissage plus ancré des représentations de la vision et du langage. Contrairement à la plupart des méthodes existantes, notre méthode ne nécessite ni des annotations de boîtes englobantes ni des images en haute résolution. Pour améliorer l'apprentissage à partir de données bruyantes issues du web, nous proposons la distillation par impulsivité, une méthode d'auto-formation qui apprend à partir de cibles pseudo-générées par un modèle d'impulsion. Nous fournissons une analyse théorique d'ALBEF sous l'angle de la maximisation de l'information mutuelle, montrant que différentes tâches d'apprentissage peuvent être interprétées comme différents moyens de générer des vues pour un couple image-texte. ALBEF atteint des performances de pointe sur plusieurs tâches descendantes en vision-langage. En matière de recherche d'image-texte, ALBEF surpasses les méthodes pré-entraînées sur des ensembles de données beaucoup plus importants. Sur VQA et NLVR$^2$, ALBEF réalise des améliorations absolues respectives de 2,37 % et 3,84 % par rapport à l'état de l'art tout en offrant une vitesse d'inférence plus rapide. Le code source et les modèles pré-entraînés sont disponibles sur https://github.com/salesforce/ALBEF/.