HyperAIHyperAI
il y a 7 jours

Graphes d’hyper-situation d’apprentissage pour la réponse aux questions vidéo

Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah
Graphes d’hyper-situation d’apprentissage pour la réponse aux questions vidéo
Résumé

Répondre à des questions portant sur des situations complexes dans des vidéos exige non seulement la capture de la présence des acteurs, des objets et de leurs relations, mais aussi l’évolution de ces relations au fil du temps. Un hyper-graphe de situation est une représentation qui décrit les situations sous forme de sous-graphes scéniques pour chaque trame vidéo, et d’hyper-arêtes pour relier ces sous-graphes, proposée afin de capturer toutes ces informations de manière compacte et structurée. Dans ce travail, nous proposons une architecture pour la réponse aux questions sur les vidéos (VQA) permettant de répondre à des questions liées au contenu vidéo en prédisant des hyper-graphes de situation, méthode baptisée Situation Hyper-Graph based Video Question Answering (SHG-VQA). À cette fin, nous entraînons un décodeur d’hyper-graphe de situation afin d’identifier implicitement des représentations graphiques comprenant les actions ainsi que les relations entre objets et humains à partir de la séquence vidéo d’entrée. Ensuite, nous utilisons une attention croisée entre les hyper-graphes de situation prédits et l’embedding de la question pour prédire la réponse correcte. La méthode proposée est entraînée de manière end-to-end et optimisée par une perte de VQA combinant une fonction d’entropie croisée et une perte de correspondance de type Hungarian pour la prédiction de l’hyper-graphe de situation. L’efficacité de l’architecture proposée est évaluée de manière exhaustive sur deux benchmarks exigeants : AGQA et STAR. Nos résultats montrent que l’apprentissage des hyper-graphes de situation sous-jacents permet à système d’améliorer significativement ses performances face à de nouveaux défis dans les tâches de réponse aux questions sur les vidéos.

Graphes d’hyper-situation d’apprentissage pour la réponse aux questions vidéo | Articles de recherche récents | HyperAI