التدريب المسبق التوليدي من الطرف إلى الطرف لوصف الفيديو متعدد الوسائط

تُعاني الإطارات الحديثة للتدريب المسبق على الفيديو واللغة من عدم القدرة على إنتاج جمل. نقدّم إطارًا جديدًا للتدريب المسبق المتعدد الوسائط على الفيديو (MV-GPT)، وهو إطار تدريب مسبق لتعلم من الفيديوهات غير المُوسومة، ويمكن استخدامه بكفاءة في المهام الإبداعية مثل وصف الفيديو متعدد الوسائط. على عكس الإطارات الحديثة للتدريب المسبق على الفيديو واللغة، يُدرّس إطارنا بشكل متزامن كلًا من مشغّل الفيديو متعدد الوسائط ومشغّل الجملة. وللتغلب على نقص التسميات النصية في الفيديوهات غير الموسومة، نستفيد من النصوص المستقبلية كمصدر نصي إضافي، ونُقدّم هدفًا ثنائي الاتجاه للإعادة الإنشائية: نُولِّد النصوص المستقبلية بناءً على السياق المتعدد الوسائط الحالي، ونُولِّد أيضًا النص الحالي بناءً على الملاحظات المستقبلية. وباستخدام هذا الهدف، نُدرّب نموذجًا مُشغّلًا-مُخرِجًا بشكل مباشر من البداية إلى النهاية، بحيث يُنتج وصفًا من صور خام وصوت مُحوّل إلى نص مباشرة. وحققت نماذجنا أداءً متميزًا على مستوى الحد الأقصى في وصف الفيديو متعدد الوسائط على أربع معايير قياسية، وكذلك في مهام فهم الفيديو الأخرى مثل الاستفسار عن الفيديو (VideoQA)، واسترجاع الفيديو، وتصنيف الحركات.