LXMERT : Apprentissage des représentations d'encodeurs intermodaux à partir de transformateurs

Le raisonnement vision-langage nécessite une compréhension des concepts visuels, de la sémantique du langage et, plus important encore, l'alignement et les relations entre ces deux modalités. Nous proposons donc le cadre LXMERT (Learning Cross-Modality Encoder Representations from Transformers) pour apprendre ces connexions vision-langage. Dans LXMERT, nous construisons un modèle Transformer à grande échelle composé de trois encodeurs : un encodeur de relations d'objets, un encodeur de langage et un encodeur inter-modalités. Ensuite, pour doter notre modèle de la capacité de connecter la sémantique visuelle et linguistique, nous pré-entraînons le modèle avec de grandes quantités de paires image-sentence, via cinq tâches de pré-entraînement diverses et représentatives : le masquage linguistique (masked language modeling), la prédiction d'objets masqués (feature regression et label classification), le couplage inter-modalités et la réponse à des questions sur des images. Ces tâches aident à apprendre les relations intra-modales et inter-modales. Après l'affinage à partir de nos paramètres pré-entraînés, notre modèle obtient des résultats d'état de l'art sur deux ensembles de données de questions-réponses visuelles (à savoir VQA et GQA). Nous démontrons également la généralisabilité de notre modèle pré-entraîné inter-modalités en l'adaptant à une tâche complexe de raisonnement visuel, NLVR2, améliorant ainsi le meilleur résultat précédent d'un taux absolu de 22 % (de 54 % à 76 %). Enfin, nous présentons des études d'ablation détaillées pour prouver que nos nouvelles composantes du modèle et nos stratégies de pré-entraînement contribuent significativement à nos résultats solides ; nous présentons également plusieurs visualisations d'attention pour les différents encodeurs. Le code source et les modèles pré-entraînés sont disponibles publiquement sur : https://github.com/airsplay/lxmert