CLIP2Video: إتقان استرجاع الفيديو-النص من خلال CLIP الصوتي

نُقدّم شبكة CLIP2Video لنقل نموذج التدريب المسبق للصورة واللغة إلى مهمة استرجاع الفيديو والنص بطريقة نهائية (end-to-end). تسعى الطرق الرائدة في مجال التعلم بين الفيديو واللغة إلى استخلاص السمات الفضائية الزمنية وتفاعل الوسائط المتعددة بين الفيديو واللغة من مجموعة بيانات كبيرة الحجم تتضمن أزواج فيديو-نص. على عكس هذه الطرق، نستفيد من نموذج الصورة واللغة المُدرّب مسبقًا، ونُبسطه إلى إطار عمل مكوّن من مرحلتين، يعتمد على التعلّم المشترك بين الصورة والنص، وتعزيز العلاقات الزمنية بين الإطارات الفيديوية والنص المُرافق لها على حدة، مما يجعله قادرًا على التدريب على مجموعات بيانات مقارنةً صغيرة. بشكل محدد، وباستنادًا إلى السمات المكانية التي يُستخلصها نموذج التدريب المسبق المبني على التباين بين اللغة والصورة (CLIP)، يحتوي نموذجنا على كتلة الفرق الزمني (Temporal Difference Block) لاستخلاص الحركات في الإطارات الفيديوية بدقة زمنية عالية، وكتلة التموضع الزمني (Temporal Alignment Block) لإعادة ترتيب الرموز (tokens) الخاصة بمقاطع الفيديو والعبارات النصية، وتعزيز الترابط متعدد الوسائط. قمنا بدراسات تحليلية مفصلة (ablation studies)، وحققنا أداءً يُعدّ من الأفضل عالميًا على أهم معايير استرجاع النص إلى الفيديو والفيديو إلى النص، بما في ذلك أرقام قياسية جديدة في دقة الاسترجاع على مجموعات MSR-VTT وMSVD وVATEX.