HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle d'attention multimodale amélioré par une mémoire hétérogène pour le questionnement vidéo

Chenyou Fan extsuperscript1,* Xiaofan Zhang extsuperscript1 Shu Zhang extsuperscript1 Wensheng Wang extsuperscript1 Chi Zhang extsuperscript1 Heng Huang extsuperscript1,2,*

Résumé

Dans cet article, nous proposons un nouveau cadre de réponse à des questions sur vidéo (VideoQA) entièrement entraînable, composé de trois éléments principaux : 1) une nouvelle mémoire hétérogène capable d'apprendre efficacement les informations contextuelles globales à partir des caractéristiques d'apparence et de mouvement ; 2) une mémoire de question redessinée qui aide à comprendre la sémantique complexe de la question et met en évidence les sujets interrogés ; et 3) une nouvelle couche de fusion multimodale qui effectue un raisonnement en plusieurs étapes en portant son attention sur les indices visuels et textuels pertinents avec une attention auto-mise à jour. Notre modèle VideoQA génère tout d'abord des caractéristiques visuelles et textuelles sensibles au contexte global respectivement en interagissant avec les contenus de mémoire des entrées actuelles. Ensuite, il réalise une fusion attentive des représentations visuelles et textuelles multimodales pour inférer la réponse correcte. Plusieurs cycles de raisonnement peuvent être effectués pour affiner itérativement les poids d'attention des données multimodales et améliorer la représentation finale du couple question-réponse. Les résultats expérimentaux montrent que notre approche atteint des performances de pointe sur quatre jeux de données de référence VideoQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle d'attention multimodale amélioré par une mémoire hétérogène pour le questionnement vidéo | Articles | HyperAI