Cap4Video: ما الذي يمكن أن تفعله العناوين المساعدة في استرجاع النص-الفيديو؟

تركز معظم الطرق الحالية لاسترجاع الفيديو النصي على التوافق بين المحتوى البصري للفيديوهات والجمل النصية المطلوبة. ومع ذلك، في السياقات الواقعية، غالبًا ما تكون الفيديوهات على الإنترنت مصحوبة بمعلومات نصية ذات صلة مثل العناوين والوسوم وحتى النصوص الفرعية، والتي يمكن استخدامها لتوافق الاستعلامات النصية. وقد دفعت هذه الرؤية إلى اقتراحنا لمنهج جديد لاسترجاع الفيديو النصي، حيث نقوم بشكل مباشر بإنشاء عناوين مصاحبة للفيديوهات باستخدام تقنية توليد العناوين للفيديو بدون تدريب (zero-shot video captioning) مع الاستفادة من المعرفة المستمدة من النماذج المُدرَّبة على نطاق واسع من الإنترنت (مثل CLIP وGPT-2). وبما أننا نمتلك عناوين مولدة، يظهر سؤال طبيعي: ما الفوائد التي تقدمها هذه العناوين لاسترجاع الفيديو النصي؟ وللإجابة على هذا السؤال، نقدّم إطارًا جديدًا يُسمى Cap4Video، يعتمد على استخدام العناوين الثلاثة طرق: أولاً، كبيانات إدخال: يمكن لزوجات الفيديو-العنوان أن تُعزز بيانات التدريب. ثانيًا، كتفاعل مميزات وسطي: نُجري تفاعلًا بين الميزات عبر الوسائط بين الفيديو والعنوان لإنتاج تمثيلات محسّنة للفيديو. ثالثًا، كمخرجات للناتج: يمكن لفرع توافق الاستعلام-العنوان أن يكمّل الفرع الأصلي لتوافق الاستعلام-الفيديو في استرجاع الفيديو النصي. وقد أجرينا دراسات تحليلية شاملة لتوضيح فعالية منهجنا. وبلا أي معالجة لاحقة، يحقق Cap4Video أداءً متقدمًا على أربع معايير قياسية لاسترجاع الفيديو النصي: MSR-VTT (51.4%)، VATEX (66.6%)، MSVD (51.8%)، وDiDeMo (52.0%). ويجدر الإشارة إلى أن الكود متاح على الرابط التالي: https://github.com/whwu95/Cap4Video.