Command Palette
Search for a command to run...
DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos
DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos
Jianyu Wang Bing-Kun Bao Changsheng Xu
Résumé
La question-réponse vidéo constitue une tâche difficile, exigeant que les agents soient capables de comprendre des contenus vidéo riches et de mener des raisonnements spatio-temporels. Toutefois, les méthodes existantes basées sur les graphes peinent à effectuer un raisonnement multi-étapes efficacement, en négligeant deux propriétés fondamentales de la question-réponse vidéo : (1) Pour une même vidéo, différentes questions peuvent nécessiter un nombre variable de segments vidéo ou d’objets pour parvenir à une réponse via un raisonnement relationnel ; (2) Au cours du raisonnement, les caractéristiques d’apparence et celles du mouvement présentent une interdépendance complexe, étant à la fois corrélées et complémentaires. À partir de ces observations, nous proposons une Unité de Raisonnement par Graphes Visuels Dual (DualVGR), capable de raisonner sur les vidéos de manière end-to-end. La première contribution de notre DualVGR réside dans la conception d’un Module d’Élimination de Requêtes (Query Punishment Module), explicite, qui filtre progressivement les caractéristiques visuelles non pertinentes à travers plusieurs cycles de raisonnement. La seconde contribution est le réseau d’attention graphique à multiples vues basé sur la vidéo, conçu pour capturer les relations entre les caractéristiques d’apparence et celles du mouvement. Notre architecture DualVGR atteint des performances de pointe sur les jeux de données de référence MSVD-QA et SVQA, et obtient des résultats compétitifs sur le jeu de données MSRVTT-QA. Le code est disponible à l’adresse suivante : https://github.com/MMIR/DualVGR-VideoQA.