تنبؤ الميزة المُقنّعة للتدريب البصري الذاتي التحصيل

نقدّم طريقة التنبؤ بالسمات المُقنّعة (Masked Feature Prediction، أو MaskFeat) لتدريب مُسبّق ذاتي للنماذج الفيديو. تعتمد هذه الطريقة على توليد تسلسل مُدخل عشوائيًا عن طريق إخفاء جزء من التسلسل، ثم التنبؤ بسمات المناطق المخفية. قمنا بدراسة خمسة أنواع مختلفة من السمات، ووجدنا أن "مصفوفات الاتجاهات الموجهة" (Histograms of Oriented Gradients، أو HOG)، وهي وصفة سمة مُصممة يدويًا، تُظهر أداءً متميزًا من حيث الكفاءة والأداء. لاحظنا أن عملية تطبيع التباين المحلي في HOG تُعدّ ضرورية لتحقيق نتائج جيدة، وهو ما يتماشى مع الدراسات السابقة التي استخدمت HOG في التعرف البصري. يمكن لطريقة MaskFeat تعلّم معرفة بصرية غنية وتحفيز نماذج مُعتمدة على مُحولّات (Transformer) كبيرة النطاق. وبلا استخدام أوزان إضافية للنموذج أو أي إشراف، حققت MaskFeat نتائج غير مسبوقة عند تدريبها مسبقًا على مقاطع فيديو غير موسومة: 86.7% على Kinetics-400 باستخدام MViT-L، و88.3% على Kinetics-600، و80.4% على Kinetics-700، و39.8 نقطة mAP على AVA، و75.0% على SSv2. كما تُظهر MaskFeat قدرة تعميم جيدة على الإدخالات الصورية، التي يمكن تفسيرها كفيديوهات ذات إطار واحد، وتُحقّق نتائج تنافسية على ImageNet.