نموذج فيديو-لغة عام للمهام: التدريب المسبق لفهم الفيديو بدون ارتباط بمهام محددة

نقدّم نهجًا مبسطًا لتدريب مسبق متعدد الوسائط غير مُخصص للمهام، يمكنه استقبال إدخال فيديو أو نصي، أو كليهما لعدد من المهام النهائية المختلفة. تُعدّ الطرق الحالية للتدريب المسبق مُخصصة للمهام، حيث تعتمد إما على مشغل عبر وسائط واحد يتطلب كلا الوسائط، مما يحد من استخدامها في المهام النهائية من نوع الاسترجاع، أو على تعلم متعدد المهام أكثر تعقيدًا باستخدام مشغلين منفصلين لكل وسيلة، مما يحد من التكامل المبكر بين الوسائط. بدلًا من ذلك، نقدّم أساليب جديدة لتمويه التدريب المسبق تُحسّن مزج الوسائط (مثلاً، من خلال إجبار التمويهات النصية على التنبؤ بأقرب تضمينات فيديو)، مع الحفاظ في الوقت نفسه على القدرة على الفصل بين الوسائط (مثلاً، عند الحاجة إلى تنبؤات منفصلة دون استخدام كل الإدخالات). أظهرت النتائج التجريبية أداءً قويًا على طيف أوسع من المهام مقارنة بأي طريقة سابقة، وتفوقت غالبًا على التدريب المسبق المخصص للمهام. تم إتاحة الكود على الرابط التالي: https://github.com/pytorch/fairseq/tree/main/examples/MMPT.