HyperAIHyperAI

Command Palette

Search for a command to run...

DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos

Jianyu Wang Bing-Kun Bao Changsheng Xu

Résumé

La question-réponse vidéo constitue une tâche difficile, exigeant que les agents soient capables de comprendre des contenus vidéo riches et de mener des raisonnements spatio-temporels. Toutefois, les méthodes existantes basées sur les graphes peinent à effectuer un raisonnement multi-étapes efficacement, en négligeant deux propriétés fondamentales de la question-réponse vidéo : (1) Pour une même vidéo, différentes questions peuvent nécessiter un nombre variable de segments vidéo ou d’objets pour parvenir à une réponse via un raisonnement relationnel ; (2) Au cours du raisonnement, les caractéristiques d’apparence et celles du mouvement présentent une interdépendance complexe, étant à la fois corrélées et complémentaires. À partir de ces observations, nous proposons une Unité de Raisonnement par Graphes Visuels Dual (DualVGR), capable de raisonner sur les vidéos de manière end-to-end. La première contribution de notre DualVGR réside dans la conception d’un Module d’Élimination de Requêtes (Query Punishment Module), explicite, qui filtre progressivement les caractéristiques visuelles non pertinentes à travers plusieurs cycles de raisonnement. La seconde contribution est le réseau d’attention graphique à multiples vues basé sur la vidéo, conçu pour capturer les relations entre les caractéristiques d’apparence et celles du mouvement. Notre architecture DualVGR atteint des performances de pointe sur les jeux de données de référence MSVD-QA et SVQA, et obtient des résultats compétitifs sur le jeu de données MSRVTT-QA. Le code est disponible à l’adresse suivante : https://github.com/MMIR/DualVGR-VideoQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DualVGR : Une unité de raisonnement par graphe visuel dual pour la réponse aux questions sur les vidéos | Articles | HyperAI