جسر الاسترجاع الفيديو-النصي باستخدام الأسئلة ذات الخيارات المتعددة

تلقى التدريب المسبق للنموذج لتعلم تمثيل الفيديو والنص القابل للنقل اهتمامًا كبيرًا في السنوات الأخيرة. غالبًا ما تعتمد الأعمال السابقة الرائدة على مرمزين منفصلين لتحقيق الاسترجاع الكفء، لكنها تتجاهل الارتباطات المحلية بين الفيديوهات والنصوص. بينما تستخدم سلسلة أخرى من الأبحاث مرمز مشترك لتفاعل الفيديو مع النص، ولكن هذا يؤدي إلى كفاءة منخفضة حيث يجب إدخال كل زوج من النص والفيديو إلى النموذج. في هذا البحث، نمكّن التفاعلات الدقيقة بين الفيديو والنص مع الحفاظ على الكفاءة العالية للاسترجاع من خلال مهمة مسبقة جديدة، أطلقنا عليها اسم أسئلة متعددة الخيارات (MCQ)، حيث يتم تدريب وحدة بارامترية تُسمى BridgeFormer على الإجابة عن "الأسئلة" التي يتم بناؤها بواسطة خصائص النص بالاستعانة بخصائص الفيديو. بشكل خاص، نستغل المعاني الغنية للنص (أي الأسماء والأفعال) لبناء الأسئلة، مما يمكن مرمز الفيديو من التقاط المزيد من المحتوى الإقليمي والديناميكيات الزمنية. وفي صورة الأسئلة والإجابات، يمكن إنشاء الارتباطات الدلالية بين الخصائص المحلية للفيديو والنص بشكل صحيح. يمكن إزالة BridgeFormer للاستخدام في المهام اللاحقة، مما يوفر نموذجًا كفؤًا ومرونةً باستخدام مرمزين فقط. طريقة عملنا تتفوق على أفضل الأساليب الحالية في مهمة استرجاع النص إلى الفيديو الشائعة في خمسة مجموعات بيانات وبإعدادات تجريبية مختلفة (أي الاسترجاع بدون تدريب وإعادة التدريب)، بما في ذلك HowTo100M (مليون فيديو). كما أجرينا اختبار الاسترجاع بدون تدريب للتعرف على الحركات، والذي يمكن اعتباره استرجاع الفيديو إلى النص، وأثبتت طريقتنا أيضًا أنها تتخطى نظيراتها بشكل كبير. بالإضافة إلى ذلك، حققت طريقتنا نتائج تنافسية باستخدام مقاطع فيديو قصيرة جدًا للتدريب المسبق في المهام اللاحقة ذات الوسيلة الواحدة، مثل التعرف على الحركات باستخدام التقييم الخطي.