VindLU: وصفة لتدريب مسبق فعّال للصورة واللغة

شهدت السنوات الأخيرة تقدماً ملحوظاً في فهم الفيديو واللغة (VidL). ومع ذلك، فإن معظم النماذج الحديثة لـVidL تستخدم هياكل نموذج معقدة ومخصصة، بالإضافة إلى بروتوكولات تدريب مسبق متقدمة، مما يجعل إعادة إنتاج هذه الأطر وتحليلها ومقارنتها صعباً. ولذلك، بدلاً من اقتراح نموذج جديد لـVidL، تقوم هذه الورقة بدراسة تجريبية شاملة تكشف أسباب العوامل الأكثر أهمية في تصميم نماذج VidL. من بين العوامل التي نستعرضها: (أ) تصميم البنية الزمانية-المكانية، (ب) أساليب دمج الوسائط المتعددة، (ج) أهداف التدريب المسبق، (د) اختيار بيانات التدريب المسبق، (هـ) بروتوكولات التدريب المسبق والتعديل الدقيق (fine-tuning)، و(و) توسيع النموذج والبيانات. تُظهر دراستنا التجريبية أن العوامل المصممة الأكثر أهمية تشمل: نمذجة العناصر الزمنية، ودمج الوسائط المتعددة من الفيديو إلى النص، وأهداف النمذجة المُقنّعة (masked modeling)، والتدريب المشترك على الصور والفيديوهات. وباستخدام هذه الرؤى التجريبية، نُطوّر وصفة خطوة بخطوة، تُسمى VindLU، لتدريب مسبق فعّال لـVidL. وتحقيقاً لنتائج مماثلة أو أفضل من النماذج الرائدة في مجال VidL على عدة مهام دون الاعتماد على التدريب المسبق الخارجي (CLIP). وبالتحديد، حقق نهجنا 61.2% في مهمة استرجاع الفيديو من النص على مجموعة DiDeMo، و55.0% على مجموعة ActivityNet، متفوّقاً على الحد الأقصى الحالي (SOTA) بنسبة 7.8% و6.1% على التوالي. علاوة على ذلك، تحقّق نموذجنا نتائج رائدة في مهام إجابة الأسئلة حول الفيديو على مجموعات ActivityNet-QA، MSRVTT-QA، MSRVTT-MC، وTVQA. تُتاح كودنا والنماذج المُدرّبة مسبقاً للجمهور عبر الرابط التالي: https://github.com/klauscc/VindLU.