il y a 8 mois

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin

Résumé

La raison causale dans les vidéos vise à atteindre une compréhension de haut niveau du contenu vidéo sous un angle causal. Cependant, les tâches actuelles de raisonnement vidéo sont limitées en portée, principalement exécutées dans un paradigme de questions-réponses et se concentrant sur des vidéos courtes ne contenant qu'un seul événement et des relations causales simples, manquant d'une analyse causale complète et structurée pour les vidéos comportant plusieurs événements. Pour combler cette lacune, nous introduisons une nouvelle tâche et un nouveau jeu de données, la Découverte Causale Multi-Événements (MECD). Cette tâche vise à révéler les relations causales entre les événements répartis chronologiquement au fil de longues vidéos. Étant donné des segments visuels et des descriptions textuelles d'événements, MECD nécessite l'identification des associations causales entre ces événements afin de déduire un diagramme causal structuré et complet au niveau des événements expliquant pourquoi et comment l'événement final s'est produit. Pour aborder MECD, nous avons conçu un cadre novateur inspiré par la méthode de causalité Granger, utilisant un modèle efficace de prédiction d'événements basé sur le masquage pour effectuer un Test Granger d'Événement, qui estime la causalité en comparant l'événement prédit final lorsque les événements prémisses sont masqués ou non masqués. De plus, nous intégrons des techniques d'inférence causale telles que l'ajustement par la porte avant (front-door adjustment) et l'inférence contre-factuelle pour relever les défis liés à MECD comme le biais causal (causality confounding) et la causalité illusoire (illusory causality). Les expériences valident l'efficacité de notre cadre dans la fourniture de relations causales dans les vidéos multi-événements, surpassant respectivement GPT-4o et VideoLLaVA de 5,7 % et 4,1 %.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Reasoning

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Reasoning

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MECD : Déverrouiller la Découverte Causale Multi-Événements dans la Raisonnement Vidéo

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MECD : Déverrouiller la Découverte Causale Multi-Événements dans la Raisonnement Vidéo

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MECD : Déverrouiller la Découverte Causale Multi-Événements dans la Raisonnement Vidéo

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin

Chen Tieyuan ; Liu Huabin ; He Tianyao ; Chen Yihang ; Gan Chaofan ; Ma Xiao ; Zhong Cheng ; Zhang Yang ; Wang Yingxue ; Lin