MUREL : Raisonnement relationnel multimodal pour le réponse aux questions visuelles

Les réseaux d'attention multimodaux sont actuellement les modèles de pointe pour les tâches de réponse à des questions visuelles (Visual Question Answering, VQA) impliquant des images réelles. Bien que l'attention permette de se concentrer sur le contenu visuel pertinent à la question, ce mécanisme simple est jugé insuffisant pour modéliser les caractéristiques de raisonnement complexes nécessaires à la VQA ou à d'autres tâches de haut niveau.Dans cet article, nous proposons MuRel, un réseau relationnel multimodal appris de bout en bout pour raisonner sur des images réelles. Notre première contribution est l'introduction de la cellule MuRel, une primitive atomique de raisonnement représentant les interactions entre la question et les régions d'image par une riche représentation vectorielle, et modélisant les relations entre régions par des combinaisons binaires. Deuxièmement, nous intégrons cette cellule dans un réseau MuRel complet, qui affine progressivement les interactions visuelles et liées à la question, et peut être utilisé pour définir des schémas de visualisation plus fins que de simples cartes d'attention.Nous validons la pertinence de notre approche par diverses études d'ablation et démontrons sa supériorité par rapport aux méthodes basées sur l'attention sur trois jeux de données : VQA 2.0, VQA-CP v2 et TDIUC. Notre réseau MuRel final est compétitif ou surpasse les résultats de pointe dans ce contexte difficile.Notre code est disponible : https://github.com/Cadene/murel.bootstrap.pytorch