Entraînement adversaire à grande échelle pour l'apprentissage des représentations vision-langage

Nous présentons VILLA, le premier effort connu visant à une formation adversaire à grande échelle pour l’apprentissage de représentations vision-langage (V+L). VILLA se compose de deux étapes d’entraînement : (i) une pré-entraînement adversaire agnostique aux tâches ; suivie de (ii) une finetuning adversaire spécifique à la tâche. Contrairement à l’ajout de perturbations adverses sur les pixels d’image ou sur les jetons textuels, nous proposons d’effectuer l’entraînement adversaire dans l’espace d’embeddings de chaque modalité. Pour permettre un entraînement à grande échelle, nous adoptons la stratégie d’entraînement adversaire « gratuite » (free), et la combinons avec une régularisation basée sur la divergence de Kullback-Leibler afin de renforcer l’invariance dans l’espace d’embeddings. Nous appliquons VILLA aux modèles V+L les plus performants actuellement disponibles, et obtenons de nouveaux états de l’art sur une large gamme de tâches, notamment la réponse à des questions visuelles (Visual Question Answering), le raisonnement visuel communautaire (Visual Commonsense Reasoning), la récupération image-texte, la compréhension d’expressions de référence, l’entraînement visuel (Visual Entailment) et NLVR2.