منذ 6 أشهر

الملخص

تتكون الإطارات الحديثة لاسترجاع الفيديو والنص أساسًا من ثلاثة أجزاء: مشفر الفيديو، ومشفر النص، ورأس التشابه. وبفضل النجاح المحقق في تعلم التمثيل البصري والنصي، تم أيضًا اعتماد مشفرات مبنية على المُحَوِّل (Transformer) وطرق الدمج في مجال استرجاع الفيديو والنص. في هذا التقرير، نقدّم CLIP2TV، بهدف استكشاف ما هي العناصر الحاسمة في الطرق القائمة على المُحَوِّل. ولتحقيق هذا الهدف، نعيد النظر أولًا في بعض الأعمال الحديثة في مجال التعلم متعدد الوسائط، ثم نُدخل بعض التقنيات إلى مجال استرجاع الفيديو والنص، وأخيرًا نُقيّم هذه التقنيات من خلال تجارب واسعة على تكوينات مختلفة. ومن الجدير بالذكر أن CLIP2TV حقق أداءً بنسبة 52.9@R1 على مجموعة بيانات MSR-VTT، متفوّقًا على النتيجة السابقة القياسية (SOTA) بفارق 4.1%.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار