مار: مُعَمِّلات الترميز التلقائي المُقنَّعة للتعرف الفعّال على الحركات

تُطبّق النهج القياسية لتمييز الفيديو عادةً على مقاطع الفيديو الكاملة، وهو أمر غير فعّال نظرًا للزائد الفراغي-الزمني الواسع الانتشار في مقاطع الفيديو. وقد أظهر التقدّم الأخير في نمذجة الفيديو المُغطّاة، أي VideoMAE، القدرة على تمكين نماذج Vision Transformers (ViT) القياسية من استكمال السياقات الفراغية-الزمنية عند توفر محتوى بصري محدود فقط. مستوحى من هذا، نقترح نموذج MAR (تمييز الإجراء المُغطّى)، الذي يقلّل من الحسابات الزائدة من خلال التخلّص من نسبة من المربعات (patches) والعمل فقط على جزء من الفيديو. يتضمّن MAR مكوّنين لا غنى عنهما: التغطية المتسلسلة للخلايا (cell running masking) وال clasifier الجسري (bridging classifier). وبشكل خاص، لتمكين ViT من إدراك التفاصيل وراء المربعات المرئية بسهولة، نقدّم تقنية التغطية المتسلسلة للخلايا، التي تحافظ على الارتباطات الفراغية-الزمنية في الفيديو، مما يضمن ملاحظة المربعات في نفس الموقع الفراغي بالتتابع، مما يسهل إعادة البناء. علاوةً على ذلك، لاحظنا أن الميزات الجزئية المرئية، رغم قدرتها على إعادة بناء المربعات غير المرئية بشكل معنوي واضح، إلا أنها تفشل في تحقيق تصنيف دقيق. ولحل هذه المشكلة، نقترح استخدام Classifier جسري لسد الفجوة المعنوية بين الميزات المشفرة بواسطة ViT لإعادة البناء، وبين الميزات المتخصّصة للتصنيف. وقد أدى النموذج المقترح MAR إلى تقليل تكلفة الحوسبة الخاصة بـ ViT بنسبة 53٪، كما أظهرت التجارب الواسعة أن MAR يتفوّق باستمرار على النماذج الحالية من ViT بفارق ملحوظ. وبشكل خاص، وجدنا أن نموذج ViT-Large المدرب باستخدام MAR يتفوّق على نموذج ViT-Huge المدرب باستخدام المنهجية القياسية بفارق ملموس على كلا مجموعة بيانات Kinetics-400 وSomething-Something v2، مع أن التكلفة الحسابية لنموذج ViT-Large لدينا لا تتجاوز 14.5٪ من تكلفة ViT-Huge.