توافق الفيديو والنص باستخدام التضمينات المشروطة

نقدم طريقة لتوافق جملة نصية من مجموعة نصية معينة مع لقطة فيديو معينة، والعكس صحيح. في الممارسة التقليدية، يتم إجراء توافق النص والفيديو من خلال تعلم فضاء تضمين مشترك، حيث تكون عملية ترميز أحد الوسائط مستقلة عن الأخرى. في هذا العمل، نُرمّز بيانات المجموعة بطريقة تأخذ بعين الاعتبار المعلومات ذات الصلة بالاستعلام. ويُظهر التحليل أن قوة الطريقة تنبع من تجميع بيانات التفاعل بين الكلمات والإطارات (Frames). وبما أن ترميز لقطة الفيديو يعتمد على الجملة التي تُقارن بها، فإن التمثيل يحتاج إلى إعادة حسابه لكل تطابق محتمل. ولتحقيق ذلك، نقترح شبكة عصبية سطحية فعالة. وتنطوي عملية تدريبها على استخدام خسارة ثلاثية هيراركية قابلة للتوسع لتطبيقات توافق الفقرة/الفيديو. وتتميز الطريقة بالبساطة، وتُقدّم شفافية في التفسير، وتحقق نتائج من الدرجة الرائدة في مجال التوافق بين الجملة واللقطة، وكذلك التوافق بين الفيديو والنص، بفارق ملحوظ عبر خمسة مجموعات بيانات مختلفة: ActivityNet، DiDeMo، YouCook2، MSR-VTT، وLSMDC. كما نُظهر أن تمثيلنا المشروط يمكن نقله إلى مهام الترجمة الآلية الموجهة بالفيديو، حيث تم تحسين النتائج الحالية على مجموعة VATEX. يمكن الوصول إلى الكود المصدري من خلال الرابط: https://github.com/AmeenAli/VideoMatch.