HyperAIHyperAI
منذ 2 أشهر

VLAB: تحسين التدريب المسبق للغة الفيديو من خلال التكيف والدمج الخاص بالخصائص

Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng
VLAB: تحسين التدريب المسبق للغة الفيديو من خلال التكيف والدمج الخاص بالخصائص
الملخص

تم إثبات فعالية نماذج التدريب المسبق على الصور النصوص بحجم كبير، مثل CLIP، في تعلم تمثيلات متعددة الوسائط ذات جودة عالية. ومع ذلك، فإن البحوث الموجهة نحو تعلم تمثيلات الفيديو-النصوص لأغراض متعددة الوسائط عامة في الفيديو بناءً على هذه الخصائص القوية محدودة. بهدف تحقيق هذا الهدف، نقترح طريقة جديدة للتدريب المسبق على الفيديو والنصوص تُعرف باسم VLAB: التدريب المسبق للغة الفيديو من خلال التكيف والدمج (Video Language pre-training by feature Adapting and Blending)، والتي تقوم بنقل تمثيلات CLIP إلى مهام التدريب المسبق على الفيديو وتطوير نماذج متعددة الوسائط موحدة للفيديو لمجموعة واسعة من مهام الفيديو-النصوص. بشكل خاص، يعتمد VLAB على استراتيجيتين رئيسيتين: التكيف الخاص بالخصائص والدمج الخاص بالخصائص. في الاستراتيجية الأولى، نقدم وحدة تكيف فيديو جديدة لمعالجة نقص CLIP في نمذجة المعلومات الزمنية وتوسيع قدرات النموذج لتغطي كلًا من المهام التباينية والتوليدية. أما في الاستراتيجية الثانية، فقد اقترحت طريقة تدريب شاملة تعزز أداء النموذج بشكل أكبر من خلال استغلال تكامل خصائص الصور والفيديو. لقد أثبتنا فعالية ومرونة VLAB من خلال التجارب الشاملة على مهام متعددة الوسائط عالية التنافسية للفيديو، بما في ذلك استرجاع النصوص المرتبطة بالفيديو، وكتابة العناوين للفيديوهات، وإجابات الأسئلة حول الفيديوهات. وبشكل ملفت للنظر، حقق VLAB تفوقًا كبيرًا على الأساليب المنافسة وأقام سجلات جديدة في إجابات الأسئلة حول الفيديوهات على مجموعة بيانات MSRVTT وMSVD وTGIF. حيث حقق دقة بنسبة 49.6% و61.0% و79.0% على التوالي. سيتم إطلاق الكود والنماذج المستخدمة.