العينة التكيفية الذاتية لاستجابة الفيديو الفعالة على نماذج الصورة-النص

إجابة السؤال بناءً على الفيديو هي مهمة أساسية في مجال فهم الفيديو. وعلى الرغم من أن النماذج الحالية للرؤية واللغة (VLMs) المزودة بمحولات الفيديو (Video Transformers) قد ساهمت في نمذجة الزمن وحققت نتائج متفوقة، إلا أنها تتطلب قوة حسابية هائلة، مما يجعلها باهظة التكلفة للغاية وصعبة التنفيذ في السياقات التطبيقية الزمنية الحقيقية. تُعدّ الحلول البديلة الاقتصادية هي عينة جزء صغير من الإطارات لتمثيل المحتوى الرئيسي للفيديو، ثم تخصيص نموذج الصورة-النص على هذه الإطارات المُستخلصة. ومع ذلك، فإن النماذج الحديثة لفهم الفيديو عادةً ما تستخلص عشوائيًا مجموعة من الإطارات أو المقاطع، دون أخذ الارتباطات الداخلية بين محتوياتها البصرية أو صلتها بالسؤال بعين الاعتبار. نحن نرى أن هذا النوع من الاستخلاص العشوائي قد يُفقد الإطارات الأساسية التي يمكن استخلاص الإجابة الصحيحة منها، وتصبح الحالة أسوأ كلما زادت شحنة الاستخلاص، وهي الظاهرة التي تحدث غالبًا مع زيادة طول الفيديو. ولتخفيف هذه المشكلة، نقترح استراتيجيتين لاستخلاص الإطارات، وهما: الإطارات الأكثر تخصصًا في المجال (MDF) والإطارات الأكثر إيحاءً (MIF)، بهدف الحفاظ على أقصى قدر ممكن من الإطارات التي يُحتمل أن تكون حاسمة بالنسبة للسؤال المعطى. تقلل MDF بشكل تلقائي من خطر إغفال الإطارات الأساسية بطريقة تُعرف بـ "التجريب التدريجي" (bootstrap)، في حين تقوم MIF بالبحث النشط عن الإطارات الحاسمة المخصصة لكل زوج من الفيديو والسؤال باستخدام نماذج مساعدة. وقد أظهرت النتائج التجريبية على ثلاث مجموعات بيانات عامة من ثلاث نماذج متقدمة للرؤية واللغة (CLIP، GIT، وAll-in-one) أن الاستراتيجيات المقترحة يمكن أن تُحسّن أداء نماذج الصورة-النص المُدرّبة مسبقًا. وتم إتاحة الشفرة المصدرية الخاصة بالطريقة المُقترحة في هذه الورقة للجمهور عبر الرابط التالي: https://github.com/declare-lab/sas-vqa.