HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal Compact Bilinear Pooling pour le Répondre aux Questions Visuelles et l'Ancrage Visuel

Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1

Résumé

La modélisation de l'information textuelle ou visuelle à l'aide de représentations vectorielles formées à partir de grands ensembles de données linguistiques ou visuels a été explorée avec succès ces dernières années. Cependant, des tâches comme la réponse aux questions visuelles nécessitent la combinaison de ces représentations vectorielles entre elles. Les approches de fusion multimodale incluent le produit ou la somme élément par élément, ainsi que la concaténation des représentations visuelles et textuelles. Nous formulons l'hypothèse que ces méthodes ne sont pas aussi expressives qu'un produit externe des vecteurs visuels et textuels. Étant donné que le produit externe est généralement impossible à mettre en œuvre en raison de sa grande dimensionnalité, nous proposons d'utiliser la fusion bilinéaire compacte multimodale (MCB) pour combiner efficacement et expressivement les caractéristiques multimodales. Nous évaluons de manière extensive la MCB sur les tâches de réponse aux questions visuelles et d'ancrage. Nous démontrons constamment les avantages de la MCB par rapport aux versions simplifiées sans MCB. Pour la réponse aux questions visuelles, nous présentons une architecture qui utilise la MCB deux fois : une première fois pour prédire l'attention sur les caractéristiques spatiales, puis une seconde fois pour combiner la représentation attentive avec la représentation de la question. Ce modèle surpasses l'état de l'art sur le jeu de données Visual7W et le défi VQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Multimodal Compact Bilinear Pooling pour le Répondre aux Questions Visuelles et l'Ancrage Visuel | Articles | HyperAI