كثرة الإطارات، وليس كلها مفيدة: استراتيجيات فعالة للأسئلة والأجوبة على الفيديوهات الطويلة

الفيديوهات الطويلة التي تمتد عبر فترات زمنية واسعة تكون غنية بالمعلومات الزائدة وتتضمن أحداثًا أو كيانات متعددة غالبًا ما تكون ذات صلة ضعيفة. لذلك، عند تنفيذ إجابة الأسئلة على الفيديوهات الطويلة (LVQA)، يمكن أن تحتوي جميع المعلومات اللازمة لإنتاج استجابة صحيحة على مجموعة صغيرة من الإطارات. تناولت الدراسات الحديثة استخدام النماذج اللغوية الكبيرة (LLMs) في معايير LVQA، مما حقق أداءً استثنائيًا مع الاعتماد على نماذج الرؤية واللغة (VLMs) لتحويل جميع المحتوى البصري داخل الفيديوهات إلى اللغة الطبيعية. غالبًا ما تقوم هذه النماذج بكتابة تعليقات على عدد كبير من الإطارات المستخرجة بشكل موحد من الفيديوهات الطويلة، وهو أمر غير فعال ويمكن أن يكون زائدًا في الغالب. بالنظر إلى هذه الخيارات القرارية، نستكشف استراتيجيات مثلى لاختيار الإطارات الرئيسية التي يمكن أن تقلل بشكل كبير من هذه التكرارات، وهي استراتيجية المحدد الهرمي للإطارات الرئيسية (Hierarchical Keyframe Selector). يحقق الإطار المقترح لدينا، LVNet، أفضل الأداء بمقياس التعليقات المماثل عبر ثلاثة مجموعات بيانات معيارية لـ LVQA: EgoSchema وNExT-QA وIntentQA، كما يظهر أداءً قويًا على الفيديوهات التي تصل مدتها إلى ساعة كاملة في VideoMME. سيتم إطلاق شفرتنا المصدر بشكل عام. يمكن العثور على الشفرة في https://github.com/jongwoopark7978/LVNet.