تصنيف الفيديو متعدد الوسائط بفقرة مفتوحة باستخدام نماذج الرؤية واللغة المُدرّبة مسبقًا

يُعد استخدام نماذج الرؤية واللغة (VLMs) المُدرَّبة مسبقًا على أزواج صور ونصوص واسعة النطاق نموذجًا واعدًا للتعرف البصري المفتوح المفردات. في هذا العمل، نوسع هذا النموذج من خلال الاستفادة من الحركة والصوت اللذين يظهران بشكل طبيعي في الفيديو. نقدّم \textbf{MOV}، طريقة بسيطة ولكنها فعّالة للتصنيف الفيديو متعدد الوسائط المفتوح المفردات. في MOV، نستخدم بشكل مباشر مشغل الرؤية من نماذج VLMs المُدرَّبة مسبقًا مع تعديلات بسيطة جدًا لترميز الفيديو، والتدفق البصري (optical flow)، وطيف الصوت. وصممنا آلية دمج متعددة الوسائط لدمج المعلومات المكملة من الوسائط المختلفة. أظهرت التجارب على مجموعتي بيانات Kinetics-700 وVGGSound أن إدخال وسائط التدفق أو الصوت يؤدي إلى تحسين كبير في الأداء مقارنة بنموذج VLM المُدرَّب مسبقًا والطرق الحالية. وبشكل خاص، تُحسّن MOV الدقة على الفئات الأساسية، في حين تُظهر أداءً أفضل في التعميم على الفئات الجديدة. وتحقق MOV نتائج رائدة في معايير التصنيف الصوتي الصفرية (zero-shot) على مجموعتي بيانات UCF وHMDB، وتتفوّق بشكل كبير على الطرق التقليدية للتصنيف الصوتي الصفرية والطرق الحديثة القائمة على VLMs. سيتم إصدار الكود والنماذج قريبًا.