HyperAIHyperAI

Command Palette

Search for a command to run...

دليل السائح المُسافر عبر CLIP للبحث في الفيديوهات الطويلة

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

الملخص

هدفنا في هذه الورقة هو تكييف نماذج الصورة-النص لاسترجاع الفيديوهات الطويلة. أظهرت الدراسات الحديثة أداءً متقدماً في مجال استرجاع الفيديوهات من خلال استخدام CLIP، وذلك بتمكينها من الاستفادة من التمثيل الصوري-النصي لمهام الفيديو. ومع ذلك، ظل هناك قلة من النجاح في تعلم عملية تجميع زمنية تفوق أداء المتوسط الحسابي (mean-pooling) للتمثيلات المستخرجة على مستوى الإطار من خلال CLIP. وجدنا أن النموذج الأساسي البسيط والفعّال، المتمثل في المتوسط الموزون لتمثيلات الإطارات باستخدام تقييم الاستعلام (query-scoring)، يُعد تحسيناً ملحوظاً مقارنة بجميع المحاولات السابقة في النمذجة الزمنية والمعيار المتوسط الحسابي. وبهذا، نقدم قاعدة محسّنة للآخرين لمقارنة أدائهم معها، ونُظهر أن هذا النموذج البسيط يحقق أداءً متميزاً على مجموعة من معايير استرجاع الفيديوهات الطويلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp