التدريب المسبق للفيديوهات الطويلة ذات اللغة متعددة الوسائط باستخدام التعلم التناقضي الزمني متعدد الوسائط

أظهر التدريب المسبق على نطاق واسع للصوتيات واللغة تحسّنًا كبيرًا في مهام فهم الصوتيات واللغة. ركّزت الدراسات السابقة في مجال التدريب المسبق للصوتيات واللغة بشكل رئيسي على مقاطع الفيديو القصيرة (أي ضمن 30 ثانية) والجمل، مما ترك مجال التدريب المسبق للصوتيات واللغة على مقاطع طويلة غير مُستكشَفٍ إلى حد كبير. يمكن أن يُفيد التعلّم المباشر للتمثيل من مقاطع الفيديو الطويلة واللغة العديد من مهام فهم الصوتيات واللغة الطويلة. ومع ذلك، يُعد هذا الأمر تحديًا بسبب صعوبة نمذجة العلاقات على مدى طويل، بالإضافة إلى الحمل الحسابي الثقيل الناتج عن عدد الإطارات الأكبر. في هذا البحث، نقدّم نموذجًا للتدريب المسبق على الصوتيات واللغة الطويلة (LF-VILA) وندرّبه على مجموعة بيانات واسعة النطاق تتضمّن مقاطع فيديو طويلة ونصوصًا قصيرة مستمدة من مجموعة بيانات عامة موجودة مسبقًا. ولالتقاط الديناميكيات الزمنية الغنية وتحسين محاذاة الصوتيات واللغة بطريقة فعّالة ومتسلسلة بالكامل، نقدّم تصميمين جديدين في نموذج LF-VILA. أولاً، نقترح خسارة تقابل زمنية متعددة الوسائط (MTC) لتعلم العلاقة الزمنية بين الوسائط المختلفة من خلال تشجيع المحاذاة الدقيقة بين مقاطع الفيديو الطويلة والنصوص القصيرة. ثانيًا، نقترح آلية انتباه نافذة زمنية هيراركية (HTWA) لالتقاط الاعتماديات الزمنية الطويلة بفعالية مع تقليل التكلفة الحسابية في نموذج الترانسפורر. قمنا بتحسين نموذج LF-VILA المُدرّب مسبقًا على سبعة مهام تابعة في فهم الصوتيات واللغة الطويلة، تشمل استرجاع الفيديو من النصوص والأسئلة حول الفيديو الطويل، وحققنا أداءً جديدًا في مستوى الحد الأقصى. بشكل خاص، حقق نموذجنا تحسّنًا نسبيًا بنسبة 16.1% في مهمة استرجاع الفيديو من النصوص على مجموعة بيانات ActivityNet، و2.4% في مهمة How2QA. نُطلق كودنا وبياناتنا والنماذج المُدرّبة مسبقًا عبر الرابط: https://github.com/microsoft/XPretrain.