X-CLIP: التعلم المتناقض متعدد الحُدود من الطرف إلى الطرف لاسترجاع النص الفيديو

تمثّل المُرَاجَعَةُ بين الفيديو والنص مهمة أساسية ومحورية في الأبحاث متعددة الوسائط. وقد ساهم التطور الكبير في التدريب المُقَارَن على نطاق واسع متعدد الوسائط بشكل كبير في تطوير المُرَاجَعَةِ بين الفيديو والنص، والذي يركّز في المقام الأول على المقارنة على مستوى خشن أو دقيق. ومع ذلك، لم يُستكشف في الأبحاث السابقة بشكل واسع المقارنة بين المستويات المختلفة (أو ما يُعرف بـ "المقارنة المُتَعَدِّدة الأحجام")، وهي المقارنة بين التمثيلات الخشنة والدقيقة. مقارنةً بالمقارنة الدقيقة أو الخشنة، تُحسب المقارنة المُتَعَدِّدة الأحجام العلاقة بين السمات الخشنة وجميع السمات الدقيقة، وتُمكّن من حذف السمات الدقيقة غير الضرورية أثناء عملية حساب التشابه، وذلك بقيادة السمة الخشنة، مما يُحسّن دقة المُرَاجَعَة. ولتحقيق هذا الهدف، تقدّم هذه الورقة نموذجًا مُتعدد الأحجام مُقَارَنًا جديدًا يُسمّى X-CLIP، مُخصّصًا لمهام المُرَاجَعَةِ بين الفيديو والنص. ولكن تكمن تحدي آخر في مشكلة تجميع التشابه، والتي تهدف إلى دمج مصفوفات التشابه الدقيقة والمتعددة الأحجام لتكوين تشابه على مستوى المثيل. ولحل هذا التحدي، نقترح وحدة تُسمّى "الانتباه فوق مصفوفة التشابه" (AOSM)، التي تُوجّه نموذجًا لتركيزه على المقارنة بين الإطارات والكلمات الأساسية، وبالتالي تقليل تأثير الإطارات والكلمات غير الضرورية على نتائج المُرَاجَعَة. وباستخدام المقارنة متعددة الأحجام مع الوحدة المقترحة AOSM، يحقق نموذج X-CLIP أداءً متميزًا على خمسة مجموعات بيانات شهيرة لمُرَاجَعَة الفيديو والنص، تشمل MSR-VTT (49.3 R@1)، وMSVD (50.4 R@1)، وLSMDC (26.1 R@1)، وDiDeMo (47.8 R@1)، وActivityNet (46.2 R@1). ويتفوّق على النموذج السابق الأفضل في المجال بنسبة تحسين نسبية تبلغ +6.3%، +6.6%، +11.1%، +6.7%، و+3.8% على هذه المجموعات، مما يُظهر تفوّق المقارنة متعددة الأحجام والوحدة AOSM.