Side4Video: شبكة جانبية مكانيّة-زمنيّة للتعلم عبر النقل من صورة إلى فيديو بكفاءة عالية في استخدام الذاكرة

تحقيق نماذج الرؤية المُدرَّبة مسبقًا الكبيرة نجاحًا ملحوظًا في مجال الرؤية الحاسوبية. ومع ذلك، فإن التخصيص الكامل للنماذج الكبيرة للمهام التالية، وخاصة في فهم الفيديو، يمكن أن يكون مكلفًا حسابيًا بشكل مفرط. وقد اتجهت الدراسات الحديثة نحو التعلم الناقل الفعّال من الصور إلى الفيديو. ومع ذلك، فإن الطرق الحالية الفعّالة للتخصيص تفتقر إلى الاهتمام باستخدام الذاكرة التدريبية واستكشاف نقل نموذج أكبر إلى مجال الفيديو. في هذه الورقة، نقدّم شبكة جانبية فضائية-زمنية جديدة لتحسين التخصيص بكفاءة عالية من حيث الذاكرة لنقل نماذج الصور الكبيرة إلى فهم الفيديو، ونُطلق عليها اسم Side4Video. بشكل محدد، نُقدّم شبكة جانبية خفيفة الوزن فضائية-زمنية متصلة بنموذج الرؤية المُجمَّد، والتي تمنع التغذية العكسية عبر النموذج المُدرَّب مسبقًا الثقيل، وتستفيد من السمات الفضائية متعددة المستويات من النموذج الأصلي للصورة. تتيح لنا البنية المُصممة بكفاءة عالية جدًا في استخدام الذاكرة تقليل استهلاك الذاكرة بنسبة 75% مقارنة بالطرق القائمة على المُعدّلات السابقة. وبهذا، يمكننا نقل نموذج ViT-E الضخم (4.4 مليار معلمة) إلى مهام فهم الفيديو، وهو أكبر بـ14 مرة من ViT-L (304 مليون معلمة). تُظهر طريقتنا أداءً متميزًا على مجموعة متنوعة من مجموعات بيانات الفيديو في المهام أحادية النمط والمتعددة النماط (مثل التعرف على الحركات والاسترجاع النصي-الفيديو)، وخاصة في مجموعتي Something-Something V1 وV2 (67.3% و74.6%)، وKinetics-400 (88.6%)، وMSR-VTT (52.3%)، وMSVD (56.1%) وVATEX (68.8%). نُطلق كودنا على منصة GitHub عبر الرابط: https://github.com/HJYao00/Side4Video.