HyperAIHyperAI
منذ 2 أشهر

VideoMAE V2: توسيع مُشفرات الفيديو المقنعة ذات الترميز الذاتي باستخدام التقنع المزدوج

Wang, Limin ; Huang, Bingkun ; Zhao, Zhiyu ; Tong, Zhan ; He, Yinan ; Wang, Yi ; Wang, Yali ; Qiao, Yu
VideoMAE V2: توسيع مُشفرات الفيديو المقنعة ذات الترميز الذاتي باستخدام التقنع المزدوج
الملخص

الحجم هو العامل الرئيسي في بناء نموذج أساسي قوي يمكنه التعميم بشكل جيد على مجموعة متنوعة من المهام اللاحقة. ومع ذلك، لا يزال من الصعب تدريب نماذج الفيديو الأساسية التي تحتوي على مليارات المعالم. توضح هذه الورقة أن مكودِّر الفيديو المقنَّع (VideoMAE) هو أداة تدريب ذاتي قابلة للتوسع وعامة لبناء نماذج الفيديو الأساسية. نقوم بتوسيع VideoMAE في كلٍ من النموذج والبيانات باستخدام تصميم أساسي. تحديداً، نقدم استراتيجية ثنائية للقناع لتحسين كفاءة التدريب الأولي، حيث يعمل المُشفر على مجموعة فرعية من رموز الفيديو ويقوم المُفكِّر بمعالجة مجموعة فرعية أخرى من رموز الفيديو. رغم أن VideoMAE يتميز بكفاءة عالية بسبب نسبة القناع المرتفعة في المشفر، فإن استخدام القناع في المُفكِّر يمكنه خفض التكلفة الحاسوبية الإجمالية بشكل إضافي. هذا يمكِّن من تدريب كفء لنماذج تحتوي على مليارات المعالم في مجال الفيديو.بالإضافة إلى ذلك، نستخدم نهج تدريب تدريجي يتضمن التدريب الأولي الأول على مجموعة بيانات غير مصنفة ومتنوعة المصادر، يليها تدريب أولي ثانٍ على مجموعة بيانات مختلطة ومصنفة. وفي النهاية، تمكنا بنجاح من تدريب نموذج ViT للفيديو يحتوي على مليار معلم، والذي حقق أداءً جديدًا عالي الدقة على مجموعات البيانات الخاصة بـ Kinetics (90.0٪ على K400 و89.9٪ على K600) وSomething-Something (68.7٪ على V1 و77.0٪ على V2). كما أجرينا اختبارات شاملة لنماذج ViT للفيديو التي تم تدريبها بشكل أولي على مجموعة متنوعة من المهام اللاحقة، مما أثبت فعاليتها كمتعلم عام لتمثيلات الفيديو. الكود والنماذج متوفِّرة في \url{https://github.com/OpenGVLab/VideoMAEv2}.

VideoMAE V2: توسيع مُشفرات الفيديو المقنعة ذات الترميز الذاتي باستخدام التقنع المزدوج | أحدث الأوراق البحثية | HyperAI