منذ 17 أيام
CLIP2TV: محاذاة، مطابقة، وتقطيع لاسترجاع الفيديو-النص
Zijian Gao, Jingyu Liu, Weiqi Sun, Sheng Chen, Dedan Chang, Lili Zhao

الملخص
تتكون الإطارات الحديثة لاسترجاع الفيديو والنص أساسًا من ثلاثة أجزاء: مشفر الفيديو، ومشفر النص، ورأس التشابه. وبفضل النجاح المحقق في تعلم التمثيل البصري والنصي، تم أيضًا اعتماد مشفرات مبنية على المُحَوِّل (Transformer) وطرق الدمج في مجال استرجاع الفيديو والنص. في هذا التقرير، نقدّم CLIP2TV، بهدف استكشاف ما هي العناصر الحاسمة في الطرق القائمة على المُحَوِّل. ولتحقيق هذا الهدف، نعيد النظر أولًا في بعض الأعمال الحديثة في مجال التعلم متعدد الوسائط، ثم نُدخل بعض التقنيات إلى مجال استرجاع الفيديو والنص، وأخيرًا نُقيّم هذه التقنيات من خلال تجارب واسعة على تكوينات مختلفة. ومن الجدير بالذكر أن CLIP2TV حقق أداءً بنسبة 52.9@R1 على مجموعة بيانات MSR-VTT، متفوّقًا على النتيجة السابقة القياسية (SOTA) بفارق 4.1%.