HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Co-Attention Modulaire Profonde pour le Répondre aux Questions Visuelles

Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Qi Tian

Résumé

La tâche de réponse à des questions visuelles (Visual Question Answering, VQA) nécessite une compréhension fine et simultanée du contenu visuel des images et du contenu textuel des questions. Par conséquent, la conception d'un modèle de « co-attention » efficace pour associer les mots-clés des questions aux objets clés des images est essentielle pour la performance en VQA. Jusqu'à présent, la plupart des tentatives réussies d'apprentissage de la co-attention ont été réalisées en utilisant des modèles peu profonds, tandis que les modèles de co-attention profonde montrent peu d'amélioration par rapport à leurs homologues peu profonds. Dans cet article, nous proposons un réseau de co-attention modulaire profond (Modular Co-Attention Network, MCAN) composé de couches de co-attention modulaire (MCA) empilées en profondeur. Chaque couche MCA modèle l'auto-attention des questions et des images, ainsi que l'attention guidée des images conjointement, en utilisant une composition modulaire de deux unités d'attention basiques. Nous évaluons quantitativement et qualitativement le MCAN sur le jeu de données de référence VQA-v2 et menons des études d'ablation approfondies pour explorer les raisons derrière l'efficacité du MCAN. Les résultats expérimentaux démontrent que le MCAN surpasse significativement l'état de l'art précédent. Notre meilleur modèle unique atteint une précision globale de 70,63 % sur l'ensemble test-dev. Le code source est disponible à l'adresse suivante : https://github.com/MILVLG/mcan-vqa.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp