تعزيز التمثيل متعدد الوسائط الفيديو-اللغة عالي الدقة من خلال التحويلات الصوتية الكبيرة للفيديوهات

نُجري دراسة حول التدريب المسبق المشترك للصورة واللغة (VL) لتمكين التعلم عبر الوسائط وتحقيق فوائد لعدد كبير من المهام اللاحقة المتعلقة بالصورة واللغة. تُركّز الدراسات السابقة إما على استخلاص ميزات فيديو منخفضة الجودة أو على تعلّم تمثيلات نصية محدودة، مع إغفال حقيقة أن الفيديوهات عالية الدقة والمعاني المتنوعة يمكن أن تُحسّن بشكل كبير التعلم عبر الوسائط. في هذه الورقة، نُقدّم نموذجًا جديدًا للتدريب المسبق للصورة واللغة يُدعى HD-VILA (نموذج التدريب المسبق عالي الدقة والمتنوع للصورة واللغة) لعدد من المهام البصرية. وبشكل خاص، نقوم بجمع مجموعة بيانات كبيرة تتميز بخاصيتين متميزتين: 1) أول مجموعة بيانات عالية الدقة تتضمّن 371.5 ألف ساعة من مقاطع الفيديو بدقة 720p، و2) أكثر مجموعة بيانات تنوعًا تغطي 15 فئة شهيرة على يوتيوب. لتمكين التدريب المسبق المشترك للصورة واللغة، نُحسّن نموذج HD-VILA بشكل مشترك باستخدام مُحول هجين (hybrid Transformer) يتعلّم ميزات زمانية-مكانية غنية، ومُحول متعدد الوسائط (multimodal Transformer) يفرض تفاعل الميزات المرئية المُكتسبة مع النصوص المتنوعة. يحقق نموذج التدريب المسبق لدينا نتائج جديدة قياسية في 10 مهام لفهم الصورة واللغة، بالإضافة إلى مهام نصية-بصرية جديدة أخرى (2 مهام). على سبيل المثال، نتفوّق على النماذج ذات الأداء الأفضل (SOTA) بزيادة نسبية تصل إلى 40.4% في مؤشر R@1 في مهمة استرجاع الفيديو من النص (text-to-video retrieval) على مجموعة MSR-VTT بدون تدريب مسبق (zero-shot)، وبنسبة 55.4% في مجموعة LSMDC عالية الدقة. كما تُظهر التمثيلات المُكتسبة للصورة واللغة فعالية كبيرة في إنتاج نتائج مرئية جذابة ومعبرة بمعنى متناسق في مهام تحرير الصور بناءً على النص وتحسين الدقة (super-resolution).