توسيع النماذج المُدرَّبة مسبقًا على اللغة والصورة للاعتراف بالفيديو العام

أظهرت التدريب المقابل للغة والصورة نجاحًا كبيرًا في تعلم التمثيل المشترك بين الصور والنصوص من بيانات واسعة النطاق على الويب، مُظهرة قدرة مميزة على التعميم "بلا عينات" (zero-shot) على مختلف مهام الصور. ومع ذلك، لا يزال يُعتبر التوسع الفعّال في هذه الطرق الحديثة للتدريب المسبق للغة والصورة إلى مجال الفيديو مشكلة مفتوحة. في هذا العمل، نقدم منهجية بسيطة ولكنها فعّالة تُعدّل النماذج المُدرّبة سابقًا للغة والصورة لتمكينها من التعرف على الفيديو مباشرةً، بدلًا من تدريب نموذج جديد من الصفر. وبشكل أكثر تحديدًا، لالتقاط الاعتماديات الطويلة الأمد بين الإطارات على طول البُعد الزمني، نقترح آلية انتباه عبر الإطارات (cross-frame attention) التي تُشغّل تبادل المعلومات بشكل صريح بين الإطارات. وتُعد هذه الوحدة خفيفة الوزن ويمكن دمجها بسلاسة في النماذج المُدرّبة سابقًا للغة والصورة. علاوةً على ذلك، نقترح خطة تحفيز مُخصصة للفيديو، تعتمد على معلومات محتوى الفيديو لتكوين نصوص تحفيزية تمييزية. تُظهر التجارب الواسعة فعالية منهجنا، ويمكن تعميمه على سيناريوهات مختلفة للتعرف على الفيديو. وبالتحديد، في البيئات المُعلَّمة بالكامل، حقق أداءً بنسبة دقة أعلى في التصنيف (top-1 accuracy) بلغت 87.1% على مجموعة بيانات Kinectics-400، مع استخدام عدد يقل عن 12 مرة من فلوبس (FLOPs) مقارنةً بنموذجَي Swin-L وViViT-H. وفي التجارب بدون عينات (zero-shot)، تفوق أداءنا على أحدث الطرق المُعتمدة بـ +7.6% و+14.9% من حيث دقة التصنيف العليا تحت بروتوكولين شائعيين. وفي السيناريوهات القليلة العينات (few-shot)، تفوق أداءنا على أفضل الطرق السابقة بـ +32.1% و+23.1% عند توفر كميات ضئيلة جدًا من البيانات المُعلَّمة. يمكن الاطلاع على الكود والنموذج عبر الرابط: https://aka.ms/X-CLIP