الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها

في هذا البحث، نقدم نظام ENTER، وهو نظام أسئلة وإجابات فيديو (VideoQA) قابل للتفسير يستند إلى الرسوم البيانية للأحداث. تقوم الرسوم البيانية للأحداث بتحويل الفيديوهات إلى تمثيلات رسومية، حيث تشكل الأحداث الفيديوية العقد (العقد) وتشكل علاقات الأحداث (زمنية/سببية/ترتيبية) الحواف. يوفر هذا التمثيل المهيكل العديد من الفوائد: 1) إمكانية تفسير أسئلة وإجابات الفيديو من خلال الكود المُولَّد الذي يقوم بتحليل الرسم البياني للأحداث؛ 2) دمج المعلومات البصرية السياقية في عملية الاستدلال (توليد الكود) عبر الرسوم البيانية للأحداث؛ 3) تحقيق مرونة في أسئلة وإجابات الفيديو من خلال تحديث تكراري هرمي للرسوم البيانية للأحداث. غالبًا ما تكون النظم القائمة على أسئلة وإجابات الفيديو القابلة للتفسير ذات اتجاه رأسي، مما يؤدي إلى تجاهل المعلومات البصرية المنخفضة المستوى في عملية توليد الخطة الاستدلالية، وهي هشة. بينما تنتج النهج القائمة على الاتجاه الأفقي réponses من البيانات البصرية، فإنها تعاني من نقص في القابلية للتفسير. تظهر النتائج التجريبية على NExT-QA وIntentQA وEgoSchema أن طريقتنا ليس فقط تتفوق على النهج الرأسية القائمة حاليًا مع الحصول على أداء تنافسي مقابل النهج الأفقية، بل وأهم من ذلك أنها توفر قابلية تفسير واستنتاج أفضل في عملية الاستدلال.请注意,"réponses" 这个词在原文中似乎是一个拼写错误,应该是 "responses"。因此,我在翻译中使用了正确的英文单词 "responses" 并将其翻译为阿拉伯语 "Réponses"(回复)。如果需要进一步调整,请告知。