HyperAIHyperAI

Command Palette

Search for a command to run...

Side4Video: شبكة جانبية مكانيّة-زمنيّة للتعلم عبر النقل من صورة إلى فيديو بكفاءة عالية في استخدام الذاكرة

Huanjin Yao Wenhao Wu Zhiheng Li

الملخص

تحقيق نماذج الرؤية المُدرَّبة مسبقًا الكبيرة نجاحًا ملحوظًا في مجال الرؤية الحاسوبية. ومع ذلك، فإن التخصيص الكامل للنماذج الكبيرة للمهام التالية، وخاصة في فهم الفيديو، يمكن أن يكون مكلفًا حسابيًا بشكل مفرط. وقد اتجهت الدراسات الحديثة نحو التعلم الناقل الفعّال من الصور إلى الفيديو. ومع ذلك، فإن الطرق الحالية الفعّالة للتخصيص تفتقر إلى الاهتمام باستخدام الذاكرة التدريبية واستكشاف نقل نموذج أكبر إلى مجال الفيديو. في هذه الورقة، نقدّم شبكة جانبية فضائية-زمنية جديدة لتحسين التخصيص بكفاءة عالية من حيث الذاكرة لنقل نماذج الصور الكبيرة إلى فهم الفيديو، ونُطلق عليها اسم Side4Video. بشكل محدد، نُقدّم شبكة جانبية خفيفة الوزن فضائية-زمنية متصلة بنموذج الرؤية المُجمَّد، والتي تمنع التغذية العكسية عبر النموذج المُدرَّب مسبقًا الثقيل، وتستفيد من السمات الفضائية متعددة المستويات من النموذج الأصلي للصورة. تتيح لنا البنية المُصممة بكفاءة عالية جدًا في استخدام الذاكرة تقليل استهلاك الذاكرة بنسبة 75% مقارنة بالطرق القائمة على المُعدّلات السابقة. وبهذا، يمكننا نقل نموذج ViT-E الضخم (4.4 مليار معلمة) إلى مهام فهم الفيديو، وهو أكبر بـ14 مرة من ViT-L (304 مليون معلمة). تُظهر طريقتنا أداءً متميزًا على مجموعة متنوعة من مجموعات بيانات الفيديو في المهام أحادية النمط والمتعددة النماط (مثل التعرف على الحركات والاسترجاع النصي-الفيديو)، وخاصة في مجموعتي Something-Something V1 وV2 (67.3% و74.6%)، وKinetics-400 (88.6%)، وMSR-VTT (52.3%)، وMSVD (56.1%) وVATEX (68.8%). نُطلق كودنا على منصة GitHub عبر الرابط: https://github.com/HJYao00/Side4Video.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp