MECD: كشف السببية متعددة الأحداث في استدلال الفيديو

يهدف التحليل السببي للفيديو إلى تحقيق فهم رفيع المستوى لمحتوى الفيديو من منظور سببي. ومع ذلك، فإن المهام الحالية في تحليل الفيديو محدودة في نطاقها، حيث يتم تنفيذها بشكل أساسي في إطار الإجابة على الأسئلة وتركز على مقاطع فيديو قصيرة تحتوي على حدث واحد فقط وعلاقات سببية بسيطة، مما يفتقر إلى تحليل شامل ومنظم للسببية في مقاطع الفيديو التي تحتوي على أحداث متعددة. لسد هذه الثغرة، نقدم مهمة وقاعدة بيانات جديدة تسمى اكتشاف السببية لأحداث متعددة (Multi-Event Causal Discovery - MECD). الهدف منها هو الكشف عن العلاقات السببية بين الأحداث الموزعة زمنياً عبر مقاطع فيديو طويلة. بناءً على المقاطع البصرية والوصف النصي للأحداث، يتطلب MECD تحديد العلاقات السببية بين هذه الأحداث لاستنتاج رسم بياني سببي شامل ومنظم على مستوى الأحداث يشرح لماذا وكيف حدث الحدث النهائي. لمعالجة MECD، نصمم إطارًا جديدًا مستوحى من طريقة السببية غرانجر (Granger Causality)، باستخدام نموذج تنبؤ بالأحداث قائم على القناعات بكفاءة لإجراء اختبار غرانجر للأحداث (Event Granger Test)، والذي يقدر السببية من خلال مقارنة الحدث المتوقع النهائي عند إخفاء الأحداث السابقة مع عدم إخفائها. بالإضافة إلى ذلك، ندمج تقنيات الاستدلال السببي مثل تعديل الباب الأمامي (front-door adjustment) والاستدلال المضاد للواقع (counterfactual inference) لمعالجة التحديات في MECD مثل التداخل السببي والسببية الوهمية. تؤكد التجارب فعالية إطارنا في توفير العلاقات السببية في مقاطع الفيديو ذات الأحداث المتعددة، حيث يتفوق على GPT-4o وVideoLLaVA بنسبة 5.7% و4.1% على التوالي.