HyperAIHyperAI
il y a 2 mois

MECD : Déverrouiller la Découverte Causale Multi-Événements dans la Raisonnement Vidéo

Chen, Tieyuan ; Liu, Huabin ; He, Tianyao ; Chen, Yihang ; Gan, Chaofan ; Ma, Xiao ; Zhong, Cheng ; Zhang, Yang ; Wang, Yingxue ; Lin, Hui ; Lin, Weiyao
MECD : Déverrouiller la Découverte Causale Multi-Événements dans la Raisonnement Vidéo
Résumé

La raison causale dans les vidéos vise à atteindre une compréhension de haut niveau du contenu vidéo sous un angle causal. Cependant, les tâches actuelles de raisonnement vidéo sont limitées en portée, principalement exécutées dans un paradigme de questions-réponses et se concentrant sur des vidéos courtes ne contenant qu'un seul événement et des relations causales simples, manquant d'une analyse causale complète et structurée pour les vidéos comportant plusieurs événements. Pour combler cette lacune, nous introduisons une nouvelle tâche et un nouveau jeu de données, la Découverte Causale Multi-Événements (MECD). Cette tâche vise à révéler les relations causales entre les événements répartis chronologiquement au fil de longues vidéos. Étant donné des segments visuels et des descriptions textuelles d'événements, MECD nécessite l'identification des associations causales entre ces événements afin de déduire un diagramme causal structuré et complet au niveau des événements expliquant pourquoi et comment l'événement final s'est produit. Pour aborder MECD, nous avons conçu un cadre novateur inspiré par la méthode de causalité Granger, utilisant un modèle efficace de prédiction d'événements basé sur le masquage pour effectuer un Test Granger d'Événement, qui estime la causalité en comparant l'événement prédit final lorsque les événements prémisses sont masqués ou non masqués. De plus, nous intégrons des techniques d'inférence causale telles que l'ajustement par la porte avant (front-door adjustment) et l'inférence contre-factuelle pour relever les défis liés à MECD comme le biais causal (causality confounding) et la causalité illusoire (illusory causality). Les expériences valident l'efficacité de notre cadre dans la fourniture de relations causales dans les vidéos multi-événements, surpassant respectivement GPT-4o et VideoLLaVA de 5,7 % et 4,1 %.