Command Palette
Search for a command to run...
Réseaux de Co-Mémoire Mouvement-Apparence pour le Questionnement Vidéo
Réseaux de Co-Mémoire Mouvement-Apparence pour le Questionnement Vidéo
Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia
Résumé
La réponse aux questions sur vidéo (Video QA) est une tâche importante pour la compréhension de la structure temporelle des vidéos. Nous constatons que, par rapport à la réponse aux questions sur les images (Image QA), le Video QA présente trois attributs uniques : (1) il traite des séquences d'images longues contenant des informations plus riches, tant en quantité qu'en variété ; (2) les informations de mouvement et d'apparence sont généralement corrélées entre elles et peuvent fournir des indices d'attention utiles l'une à l'autre ; (3) différentes questions nécessitent un nombre différent de trames pour inférer la réponse. Sur la base de ces observations, nous proposons un réseau de mémoire commune mouvement-apparence pour le Video QA. Nos réseaux s'appuient sur les concepts du Dynamic Memory Network (DMN) et introduisent de nouveaux mécanismes spécifiques au Video QA. Plus précisément, il y a trois aspects saillants : (1) un mécanisme d'attention de mémoire commune qui utilise des indices provenant à la fois du mouvement et de l'apparence pour générer l'attention ; (2) un réseau conv-déconv temporel pour générer des faits contextuels à plusieurs niveaux ; (3) une méthode dynamique d'agrégation de faits pour construire une représentation temporelle dynamiquement selon les différentes questions. Nous évaluons notre méthode sur le jeu de données TGIF-QA, et les résultats surpassent significativement l'état de l'art dans les quatre tâches du TGIF-QA.