HyperAIHyperAI
il y a 2 mois

Interrogation-Réponse sur des Événements Vidéo Denses

Qin, Hangyu ; Xiao, Junbin ; Yao, Angela
Interrogation-Réponse sur des Événements Vidéo Denses
Résumé

Ce document présente une tâche novatrice de réponse à des questions sur des événements denses dans des vidéos longues, qui consiste à répondre et à ancrer des questions relatives à des événements denses dans des vidéos de longue durée, ainsi que de mettre au défi les modèles linguistiques multimodaux (MLLMs) pour qu'ils comprennent fidèlement et raisonnent sur plusieurs événements sur de longues périodes. Pour faciliter l'étude, nous avons construit DeVE-QA -- un ensemble de données comportant 78 000 questions sur 26 000 événements dans 10 600 vidéos longues. Nos évaluations montrent que les MLLMs d'avant-garde éprouvent des difficultés avec DeVE-QA. Pour améliorer les performances, nous proposons DeVi, une nouvelle approche de MLLM sans apprentissage qui met en avant un module de légendage hiérarchique, un module de mémoire temporelle d'événements et un module de vérification d'autocohérence afin de détecter, contextualiser et mémoriser respectivement les événements denses dans des vidéos longues pour la réponse aux questions. Des expériences approfondies montrent que DeVi est supérieur pour répondre aux questions sur les événements denses et ancrer les moments pertinents des vidéos. Comparé aux MLLMs existants, il réalise une augmentation notable de 4,8 % et 2,1 % pour la précision G(round)QA sur DeVE-QA et NExT-GQA, respectivement. Les données et le code sont disponibles à l'adresse suivante : https://github.com/QHUni/DeVE-QA.