HyperAIHyperAI
منذ 9 أيام

CLIP4Clip: دراسة تجريبية لـ CLIP للبحث النهائى في مقاطع الفيديو

Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li
CLIP4Clip: دراسة تجريبية لـ CLIP للبحث النهائى في مقاطع الفيديو
الملخص

تلعب الاسترجاع النصي-المرئي دورًا جوهريًا في الأبحاث متعددة الوسائط، وقد تم استخدامها على نطاق واسع في العديد من التطبيقات الويب الواقعية. وقد أظهر نموذج CLIP (التدريب المسبق للغة والصورة المتناظرة) — وهو نموذج تدريب مسبق يعتمد على الصور والنصوص — قوة تعلم المفاهيم البصرية من خلال مجموعات بيانات نصية-مرئية تم جمعها من الويب. في هذا البحث، نقترح نموذج CLIP4Clip لنقل المعرفة من نموذج CLIP إلى الاسترجاع النصي-المرئي للفيديوهات بطريقة نهائية (end-to-end). وتمت دراسة عدة أسئلة من خلال دراسات تجريبية: 1) هل تكون السمات الصورية كافية للاسترجاع النصي-المرئي للفيديوهات؟ 2) كيف تؤثر عملية التدريب المسبق الإضافي على مجموعة بيانات كبيرة من الفيديوهات والنصوص، المستندة إلى CLIP، على الأداء؟ 3) ما هو الآلية العملية لتمثيل الاعتماد الزمني بين الإطارات في الفيديو؟ 4) ما مدى حساسية نموذج النموذج تجاه القيم المُعلمة (Hyper-parameters) في مهمة الاسترجاع النصي-المرئي للفيديوهات؟ أظهرت النتائج التجريبية الواسعة أن نموذج CLIP4Clip، الذي تم نقل معرفته من CLIP، يحقق نتائج متفوقة على مستوى الحد الأقصى (SOTA) في العديد من مجموعات بيانات الاسترجاع النصي-المرئي، بما في ذلك MSR-VTT، MSVC، LSMDC، ActivityNet، وDiDeMo. ونُشر الكود الخاص بنا على الرابط التالي: https://github.com/ArrowLuo/CLIP4Clip.