دراسة تجريبية للتحويلات النهائية-إلى-النهاية للفيديو واللغة مع النمذجة البصرية المُقنّعة

أثبتت النمذجة البصرية المُقنّعة (MVM) مؤخرًا فعاليتها في التدريب المسبق البصري. وعلى الرغم من استكشاف أهداف مماثلة تقوم على إعادة البناء في المدخلات الفيديو (مثل النمذجة المُقنّعة للإطارات)، في سياق التدريب المسبق متعدد الوسائط (VidL)، فإن الدراسات السابقة لم تتمكن من تحديد استراتيجية MVM فعّالة حقًا تُسهم بشكل كبير في تحسين الأداء في المهام اللاحقة. في هذا العمل، نُجري دراسة منهجية لاستكشاف الإمكانات المحتملة لـ MVM في سياق تعلم متعدد الوسائط. بشكل خاص، نعتمد دراستنا على نموذج VIOLET، وهو نموذج متكامل من الطرف إلى الطرف (end-to-end) للفيديو واللغة، حيث يمكن تمرير التغذية الراجعة من تدريب MVM إلى فضاء بكسلات الفيديو. تم استكشاف ما مجموعه ثمانية أهداف مختلفة لإعادة البناء في إطار MVM، تتراوح بين القيم البكسلية منخفضة المستوى والانحدارات الموجهة، إلى خرائط العمق من المستوى العالي، والتدفق البصري، والرموز البصرية المنفصلة، والخصائص البصرية المختبئة. أجرينا تجارب شاملة وقدمّا رؤى حول العوامل التي تسهم في تحقيق تدريب MVM فعّال، مما أدى إلى تطوير نموذج محسّن يُدعى VIOLETv2. من الناحية التجريبية، أظهرنا أن نموذج VIOLETv2 المُدرّب باستخدام هدف MVM يحقق تحسينات ملحوظة على 13 معيارًا لتعلم متعدد الوسائط، تشمل إجابة الأسئلة حول الفيديو، ووصف الفيديو، واسترجاع الفيديو من النص.