Modèle d'attention multimodale amélioré par une mémoire hétérogène pour le questionnement vidéo

Dans cet article, nous proposons un nouveau cadre de réponse à des questions sur vidéo (VideoQA) entièrement entraînable, composé de trois éléments principaux : 1) une nouvelle mémoire hétérogène capable d'apprendre efficacement les informations contextuelles globales à partir des caractéristiques d'apparence et de mouvement ; 2) une mémoire de question redessinée qui aide à comprendre la sémantique complexe de la question et met en évidence les sujets interrogés ; et 3) une nouvelle couche de fusion multimodale qui effectue un raisonnement en plusieurs étapes en portant son attention sur les indices visuels et textuels pertinents avec une attention auto-mise à jour. Notre modèle VideoQA génère tout d'abord des caractéristiques visuelles et textuelles sensibles au contexte global respectivement en interagissant avec les contenus de mémoire des entrées actuelles. Ensuite, il réalise une fusion attentive des représentations visuelles et textuelles multimodales pour inférer la réponse correcte. Plusieurs cycles de raisonnement peuvent être effectués pour affiner itérativement les poids d'attention des données multimodales et améliorer la représentation finale du couple question-réponse. Les résultats expérimentaux montrent que notre approche atteint des performances de pointe sur quatre jeux de données de référence VideoQA.