UniVL: نموذج تدريب مسبق موحد للصورة واللغة للفهم والإنشاء متعدد الوسائط

بفضل النجاح الأخير لتقنية التدريب المسبق في المهام المتعلقة بمعالجة اللغة الطبيعية والصور-اللغة، بدأت بعض الدراسات المتعلقة بالتدريب المسبق للفيديو-اللغة بالتطور تدريجيًا بهدف تحسين المهام اللاحقة المرتبطة بالفيديو والنص. ومع ذلك، فإن معظم النماذج متعددة الوسائط الحالية يتم تدريبها على مهام الفهم، مما يؤدي إلى فجوة بين التدريب المسبق والضبط الدقيق (pretrain-finetune discrepancy) عند تطبيقها على مهام الإنشاء. تقدم هذه الورقة نموذج UniVL: نموذج موحد للتدريب المسبق على الفيديو واللغة، مصمم لدعم كل من الفهم متعدد الوسائط والإنشاء. يتكون النموذج من أربعة مكونات، تشمل مُشَفرَين منفصلين لكل وسائط (مُشَفر فيديو ومشفر نص)، ومُشَفر عابر (cross encoder)، ومشفر مخرج (decoder) يستند إلى هيكل Transformer. تم تصميم خمسة أهداف للتدريب، تشمل: التماسك الفيديو-النصي، نموذج اللغة المُقنّع المشروط (CMLM)، نموذج الإطارات المُقنّع المشروط (CMFM)، تمايز الفيديو-النص، وإعادة بناء اللغة، بهدف تدريب كل مكون من المكونات. كما تم تطوير استراتيجيتين جديدتين للتدريب المسبق، هما: التدريب التدريجي (StagedP) والتمثيل المحسّن للفيديو (EnhancedV)، لجعل عملية تدريب نموذج UniVL أكثر فعالية. تم إجراء التدريب المسبق على مجموعة بيانات كبيرة من الفيديوهات التعليمية تُعرف بـ HowTo100M. أظهرت النتائج التجريبية أن نموذج UniVL قادر على تعلّم تمثيلات قوية للعلاقة بين الفيديو والنص، وحقق نتائج متميزة على خمسة مهام لاحقة.