منذ 6 أشهر

الملخص

هدفنا في هذه الورقة هو تكييف نماذج الصورة-النص لاسترجاع الفيديوهات الطويلة. أظهرت الدراسات الحديثة أداءً متقدماً في مجال استرجاع الفيديوهات من خلال استخدام CLIP، وذلك بتمكينها من الاستفادة من التمثيل الصوري-النصي لمهام الفيديو. ومع ذلك، ظل هناك قلة من النجاح في تعلم عملية تجميع زمنية تفوق أداء المتوسط الحسابي (mean-pooling) للتمثيلات المستخرجة على مستوى الإطار من خلال CLIP. وجدنا أن النموذج الأساسي البسيط والفعّال، المتمثل في المتوسط الموزون لتمثيلات الإطارات باستخدام تقييم الاستعلام (query-scoring)، يُعد تحسيناً ملحوظاً مقارنة بجميع المحاولات السابقة في النمذجة الزمنية والمعيار المتوسط الحسابي. وبهذا، نقدم قاعدة محسّنة للآخرين لمقارنة أدائهم معها، ونُظهر أن هذا النموذج البسيط يحقق أداءً متميزاً على مجموعة من معايير استرجاع الفيديوهات الطويلة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار