HyperAIHyperAI
vor 2 Monaten

MECD: Die Entschlüsselung der Mehrereignis-Kausalität in der Videobearbeitung

Chen, Tieyuan ; Liu, Huabin ; He, Tianyao ; Chen, Yihang ; Gan, Chaofan ; Ma, Xiao ; Zhong, Cheng ; Zhang, Yang ; Wang, Yingxue ; Lin, Hui ; Lin, Weiyao
MECD: Die Entschlüsselung der Mehrereignis-Kausalität in der Videobearbeitung
Abstract

Video-causale Inferenz strebt danach, ein hochwertiges Verständnis von Videoinhalten aus einer kausalen Perspektive zu erreichen. Derzeitige Video-Inferenzaufgaben sind jedoch in ihrem Umfang begrenzt, werden hauptsächlich im Frage-Antwort-Paradigma durchgeführt und konzentrieren sich auf kurze Videos, die nur ein einzelnes Ereignis und einfache kausale Beziehungen enthalten. Sie fehlen dabei eine umfassende und strukturierte Kausalitätsanalyse für Videos mit mehreren Ereignissen. Um diese Lücke zu schließen, stellen wir eine neue Aufgabe und einen Datensatz vor: Multi-Ereignis-Kausalitätserkennung (MECD). Das Ziel von MECD ist es, die kausalen Beziehungen zwischen zeitlich verteilten Ereignissen in langen Videos aufzudecken. Angesichts visueller Segmente und textbasierter Beschreibungen von Ereignissen erfordert MECD die Identifizierung der kausalen Zusammenhänge zwischen diesen Ereignissen, um ein umfassendes, strukturiertes ereignisbasiertes Video-Kausalitätsdiagramm abzuleiten, das erklärt, warum und wie das endgültige Ergebnisergebnis eingetreten ist.Um MECD anzugehen, entwickeln wir einen neuen Ansatz, der sich an der Granger-Kausalitätsmethode orientiert. Dabei verwenden wir ein effizientes maskenbasiertes Ereignisvorhersagemodell zur Durchführung eines Ereignis-Granger-Tests, der Kausalität durch den Vergleich des vorhergesagten Ergebnisergebnisses bei maskierten versus unmaskierten Voraussetzungsereignissen schätzt. Darüber hinaus integrieren wir kausale Inferenztechniken wie die Front-Tür-Anpassung (front-door adjustment) und die kontrafaktische Inferenz (counterfactual inference), um Herausforderungen bei MECD wie Kausalitätsverwirrung (causality confounding) und Scheinkausalität (illusory causality) zu bewältigen.Experimente bestätigen die Effektivität unseres Frameworks bei der Bereitstellung kausaler Beziehungen in Videos mit mehreren Ereignissen. Unser Ansatz übertrifft GPT-4o und VideoLLaVA um 5,7 % und 4,1 % respektive.