دليل السائح المُسافر عبر CLIP للبحث في الفيديوهات الطويلة

هدفنا في هذه الورقة هو تكييف نماذج الصورة-النص لاسترجاع الفيديوهات الطويلة. أظهرت الدراسات الحديثة أداءً متقدماً في مجال استرجاع الفيديوهات من خلال استخدام CLIP، وذلك بتمكينها من الاستفادة من التمثيل الصوري-النصي لمهام الفيديو. ومع ذلك، ظل هناك قلة من النجاح في تعلم عملية تجميع زمنية تفوق أداء المتوسط الحسابي (mean-pooling) للتمثيلات المستخرجة على مستوى الإطار من خلال CLIP. وجدنا أن النموذج الأساسي البسيط والفعّال، المتمثل في المتوسط الموزون لتمثيلات الإطارات باستخدام تقييم الاستعلام (query-scoring)، يُعد تحسيناً ملحوظاً مقارنة بجميع المحاولات السابقة في النمذجة الزمنية والمعيار المتوسط الحسابي. وبهذا، نقدم قاعدة محسّنة للآخرين لمقارنة أدائهم معها، ونُظهر أن هذا النموذج البسيط يحقق أداءً متميزاً على مجموعة من معايير استرجاع الفيديوهات الطويلة.