VicTR: تمثيلات النص المشروطة بالفيديو للاعتراف بالأنشطة

قد تفوقت نماذج الرؤية واللغة (VLMs) في مجال الصور - خاصة في الإعدادات ذات الصفر التصوير - بفضل توفر كميات هائلة من بيانات التدريب الأولي (أي، عينات مزدوجة من الصورة والنص). ومع ذلك، فإن مثل هذه البيانات المزدوجة ليست متاحة بكثرة لمجال الفيديو. ولذلك، يتم تصميم نماذج الفيديو-VLM عادةً عن طريق تكييف النماذج المدربة مسبقًا للصور إلى مجال الفيديو، بدلاً من تدريبها من البداية. تعتمد جميع هذه الوصفات على زيادة المعلومات الزمنية في التضمينات البصرية (أي، صورة $\rightarrow$ فيديو)، مع الحفاظ غالبًا على التضمينات النصية دون تغيير أو حتى التخلص منها. في هذا البحث، نقدم وجهة نظر معاكسة، وهي أن يمكن تصميم نماذج الفيديو-VLM أفضل من خلال التركيز أكثر على زيادة المعلومات النصية بدلاً من المعلومات البصرية. بشكل أكثر تحديدًا، نقدم تمثيلات النص المشروطة بالفيديو (VicTR): شكل من أشكال التضمينات النصية التي يتم تحسينها بالنسبة للتضمينات البصرية، مما يخلق فضاءًا كامنًا تبادليًا أكثر مرونة. يمكن لنموذجنا الاستفادة أيضًا من المعلومات الدلالية المتاحة بحرية، على شكل نصوص مساعدة مرتبطة بصريًا (مثل معلومات الأشياء أو المشاهد). قمنا بتقييم نموذجنا على مقاييس تصنيف الأنشطة القليلة التصوير والغير مُعلَّمة (HMDB-51, UCF-101)، وتصنيف الأنشطة ذات الشكل القصير (Kinetics-400) وتصنيف الأنشطة ذات الشكل الطويل (Charades)، مما أظهر أداءً قويًا بين نماذج الفيديو-VLM.