إعادة النظر في مصطلح "الفيديو" في فهم اللغة والفيديو

ما الذي يجعل مهمة الفيديو مناسبة بشكل فريد للفيديو، بخلاف ما يمكن استخلاصه من صورة واحدة؟ بالبناء على التقدم الأخير في نماذج اللغة والصورة ذاتية التدريب، نعيد النظر في هذا السؤال في سياق المهام المتعلقة بالفيديو واللغة. نقترح نموذجًا جديدًا يُسمى "الاستقصاء الزمني غير الزمني" (Atemporal Probe - ATP)، وهو نموذج لتحليل الفيديو واللغة يوفر حدًا أقوى لدقة النموذج الأساسي المُقيّد بفهم الصورة على مستوى الصورة. وباستخدام هذا النموذج في المهام القياسية التمييزية المتعلقة بالفيديو واللغة، مثل إجابة الأسئلة عن الفيديو واسترجاع الفيديو حسب النص، نُحدّد القيود والإمكانات المتوفرة في المعايير الحالية المتعلقة بالفيديو واللغة. ونجد أن فهم التسلسل الزمني للأحداث غالبًا ما يكون غير ضروري لتحقيق أداء قوي أو منافس لأفضل النماذج الحالية، حتى عند مقارنته بنماذج كبيرة الحجم حديثة في مجال الفيديو واللغة، وفي سياقات مُصممة لاختبار فهم أعمق على مستوى الفيديو. كما نُظهر كيف يمكن لـ ATP تحسين تصميم قواعد البيانات والنموذج في المهام المتعلقة بالفيديو واللغة. ونُفصّل تقنية للاستفادة من ATP لفصل أجزاء من قواعد البيانات ذات التركيز الأعلى على البيانات الصعبة من حيث الزمن، مما يعزز فعالية المعايير في تقييم الفهم السببي والزمني. علاوة على ذلك، نُظهر أن دمج ATP بشكل فعّال في النماذج الكاملة التي تتعامل مع الزمن على مستوى الفيديو يمكن أن يُحسّن الكفاءة ويدفع دقة الأداء إلى مستوى الحد الأقصى الممكن.