HyperAIHyperAI
il y a 17 jours

MoReVQA : Exploration de modèles de raisonnement modulaires pour la réponse aux questions sur vidéo

Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid
MoReVQA : Exploration de modèles de raisonnement modulaires pour la réponse aux questions sur vidéo
Résumé

Ce papier aborde la tâche de réponse aux questions sur les vidéos (videoQA) à l’aide d’un cadre raisonnement modulaire et décomposé en plusieurs étapes. Les méthodes modulaires précédentes ont montré un potentiel prometteur, mais reposent généralement sur une seule étape de planification non ancrée dans le contenu visuel. Toutefois, à travers une base simple et efficace, nous constatons que de tels systèmes peuvent entraîner un comportement fragile en pratique, notamment dans des scénarios exigeants de videoQA. À la différence des méthodes traditionnelles à une seule étape, nous proposons un système multi-étapes composé d’un parseur d’événements, d’une étape d’ancrage visuel et d’une dernière étape de raisonnement, en collaboration avec une mémoire externe. Toutes les étapes sont entraînement-libres et réalisées via une mise en œuvre à faible exemple (few-shot prompting) de grands modèles, produisant ainsi des sorties intermédiaires interprétables à chaque étape. En décomposant la planification sous-jacente et la complexité de la tâche, notre méthode, MoReVQA, atteint des résultats de pointe sur les benchmarks standards de videoQA (NExT-QA, iVQA, EgoSchema, ActivityNet-QA), tout en s’adaptant efficacement à des tâches connexes (videoQA ancrée, résumé de paragraphe).

MoReVQA : Exploration de modèles de raisonnement modulaires pour la réponse aux questions sur vidéo | Articles de recherche récents | HyperAI