كلوفر: نحو نموذج موحد للتوافق والدمج بين الفيديو واللغة

إن بناء نموذج فيديو-لغة عام قادر على حل مهام متعددة لفهم الفيديو (مثل استرجاع الفيديو بناءً على النص، والإجابة على الأسئلة حول الفيديو) يظل تحديًا مفتوحًا في مجال التعلم الآلي. من أجل تحقيق هذا الهدف، اعتمد معظم الأعمال الحديثة على بناء النموذج من خلال تجميع مشغلات سمات أحادية الاتجاه (uni-modal) ومشغلات سمات متقاطعة الاتجاه (cross-modal)، ثم تدريبه باستخدام مهام تدريب مسبقة قائمة على التباين الثنائي (pair-wise contrastive pre-text tasks). وعلى الرغم من العائدات الجذابة من حيث الشمولية، فإن النماذج الناتجة تضطر إلى التنازل بين الكفاءة والأداء. إذ تعتمد غالبًا على معمارية مختلفة لكل مهمة تطبيقية (downstream task) منفصلة. وجدنا أن السبب في ذلك يكمن في أن التدريب الثنائي لا يمكنه تحقيق تطابق (alignment) ودمج (fusion) فعّالين بين السمات المستمدة من مختلف الوسائط. ولهذا نقدّم \textbf{Clover}\textemdash وهي طريقة تدريب مسبق للفيديو-اللغة مبنية على الترابط\textemdash بهدف بناء نموذج فيديو-لغة عام قادر على معالجة مهام متعددة لفهم الفيديو دون التضحية بأي من الأداء أو الكفاءة. تعزز Clover تطابق السمات المتقاطعة والدمج بينها من خلال مهمة تدريب مسبق ثلاثية الوسائط (tri-modal alignment pre-training task) جديدة. علاوةً على ذلك، نقترح تعزيز التطابق الثلاثي من خلال دمج التعلم من عينات مُقنّعة معانيًا (semantic masked samples) ووضع خسارة ترتيب ثنائية جديدة. وقد حققت Clover أداءً جديدًا لحالة الفن (state-of-the-art) في عدة مهام تطبيقية، تشمل ثلاث مهام استرجاع في كلا الإعدادين الصفر-الانطلاق (zero-shot) والتدريب المخصص (fine-tuning)، وثمانية مهام للإجابة على الأسئلة حول الفيديو. سيتم إصدار الشيفرة المصدرية والنموذج المُدرّب مسبقًا على الرابط: \url{https://github.com/LeeYN-43/Clover}.