Multimodal Compact Bilinear Pooling pour le Répondre aux Questions Visuelles et l'Ancrage Visuel

La modélisation de l'information textuelle ou visuelle à l'aide de représentations vectorielles formées à partir de grands ensembles de données linguistiques ou visuels a été explorée avec succès ces dernières années. Cependant, des tâches comme la réponse aux questions visuelles nécessitent la combinaison de ces représentations vectorielles entre elles. Les approches de fusion multimodale incluent le produit ou la somme élément par élément, ainsi que la concaténation des représentations visuelles et textuelles. Nous formulons l'hypothèse que ces méthodes ne sont pas aussi expressives qu'un produit externe des vecteurs visuels et textuels. Étant donné que le produit externe est généralement impossible à mettre en œuvre en raison de sa grande dimensionnalité, nous proposons d'utiliser la fusion bilinéaire compacte multimodale (MCB) pour combiner efficacement et expressivement les caractéristiques multimodales. Nous évaluons de manière extensive la MCB sur les tâches de réponse aux questions visuelles et d'ancrage. Nous démontrons constamment les avantages de la MCB par rapport aux versions simplifiées sans MCB. Pour la réponse aux questions visuelles, nous présentons une architecture qui utilise la MCB deux fois : une première fois pour prédire l'attention sur les caractéristiques spatiales, puis une seconde fois pour combiner la représentation attentive avec la représentation de la question. Ce modèle surpasses l'état de l'art sur le jeu de données Visual7W et le défi VQA.