إعادة النظر في الفاصل: نقل النماذج البصرية-اللغوية للتعرف على الفيديو

نقل المعرفة من النماذج العميقة المُدرَّبة مسبقًا بشكل غير مُخصص للمهام إلى المهام التالية يعد موضوعًا مهمًا في أبحاث رؤية الحاسوب. وبالتزامن مع النمو في القدرة الحسابية، أصبح لدينا الآن نماذج مُدرَّبة مسبقًا على نطاق واسع في مجال الرؤية واللغة، تتميز ببنية نموذج ضخمة وكميات كبيرة من البيانات. وفي هذه الدراسة، نركّز على نقل المعرفة لمهام تصنيف الفيديو. تُستخدم الطرق التقليدية في تهيئة تصنيفية خطية بشكل عشوائي لتصنيف الرؤية، لكنها تتجاهل الاستفادة من المُشفِّر النصي في المهام البصرية التالية. في هذه الورقة، نعيد تقييم دور التصنيف الخطي ونستبدل التصنيف بمعارف مختلفة مستمدة من النموذج المُدرَّب مسبقًا. ونستخدم نموذج اللغة المُدرَّب بشكل جيد لتوليد أهداف معنوية ممتازة، مما يُمكّن من تعلم نقل فعّال. تُظهر الدراسة التجريبية أن طريقة العمل لدينا تُحسّن الأداء وسرعة التدريب في تصنيف الفيديو، مع تغيير ضئيل جدًا في البنية النموذجية. ويحقق نموذج التكييف البسيط لكنه الفعّال أداءً متفوّقًا على الحد الأقصى في سيناريوهات التعرف على الفيديو المختلفة، مثل التعرف الصفري (zero-shot)، والتعرف القليل (few-shot)، والتعرف العام. وبشكل خاص، حقق النموذج أداءً متميزًا بنسبة دقة 87.8% على مجموعة بيانات Kinetics-400، كما تفوق على الطرق السابقة بنسبة 20 إلى 50% في الدقة المطلقة (top-1) في ظروف التعرف الصفري والقليل على خمسة مجموعات بيانات شهيرة للفيديو. يمكن العثور على الكود والنماذج على الرابط: https://github.com/whwu95/Text4Vis.