HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Co-Mémoire Mouvement-Apparence pour le Questionnement Vidéo

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Résumé

La réponse aux questions sur vidéo (Video QA) est une tâche importante pour la compréhension de la structure temporelle des vidéos. Nous constatons que, par rapport à la réponse aux questions sur les images (Image QA), le Video QA présente trois attributs uniques : (1) il traite des séquences d'images longues contenant des informations plus riches, tant en quantité qu'en variété ; (2) les informations de mouvement et d'apparence sont généralement corrélées entre elles et peuvent fournir des indices d'attention utiles l'une à l'autre ; (3) différentes questions nécessitent un nombre différent de trames pour inférer la réponse. Sur la base de ces observations, nous proposons un réseau de mémoire commune mouvement-apparence pour le Video QA. Nos réseaux s'appuient sur les concepts du Dynamic Memory Network (DMN) et introduisent de nouveaux mécanismes spécifiques au Video QA. Plus précisément, il y a trois aspects saillants : (1) un mécanisme d'attention de mémoire commune qui utilise des indices provenant à la fois du mouvement et de l'apparence pour générer l'attention ; (2) un réseau conv-déconv temporel pour générer des faits contextuels à plusieurs niveaux ; (3) une méthode dynamique d'agrégation de faits pour construire une représentation temporelle dynamiquement selon les différentes questions. Nous évaluons notre méthode sur le jeu de données TGIF-QA, et les résultats surpassent significativement l'état de l'art dans les quatre tâches du TGIF-QA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp