Command Palette
Search for a command to run...
دليل السائح المُسافر عبر CLIP للبحث في الفيديوهات الطويلة
دليل السائح المُسافر عبر CLIP للبحث في الفيديوهات الطويلة
Max Bain Arsha Nagrani Gül Varol Andrew Zisserman
الملخص
هدفنا في هذه الورقة هو تكييف نماذج الصورة-النص لاسترجاع الفيديوهات الطويلة. أظهرت الدراسات الحديثة أداءً متقدماً في مجال استرجاع الفيديوهات من خلال استخدام CLIP، وذلك بتمكينها من الاستفادة من التمثيل الصوري-النصي لمهام الفيديو. ومع ذلك، ظل هناك قلة من النجاح في تعلم عملية تجميع زمنية تفوق أداء المتوسط الحسابي (mean-pooling) للتمثيلات المستخرجة على مستوى الإطار من خلال CLIP. وجدنا أن النموذج الأساسي البسيط والفعّال، المتمثل في المتوسط الموزون لتمثيلات الإطارات باستخدام تقييم الاستعلام (query-scoring)، يُعد تحسيناً ملحوظاً مقارنة بجميع المحاولات السابقة في النمذجة الزمنية والمعيار المتوسط الحسابي. وبهذا، نقدم قاعدة محسّنة للآخرين لمقارنة أدائهم معها، ونُظهر أن هذا النموذج البسيط يحقق أداءً متميزاً على مجموعة من معايير استرجاع الفيديوهات الطويلة.