منذ 2 أشهر

VideoMAE: المُشغّلات ذات الترميز المقنّع هي متعلمات فعالة من حيث البيانات للتدريب الذاتي المُشرف على الفيديو

Zhan Tong; Yibing Song; Jue Wang; Limin Wang

الملخص

تتطلب التدريب الأولي للمحولات الفيديو على مجموعات بيانات ذات حجم إضافي كبير عادةً لتحقيق الأداء المتميز على مجموعات البيانات النسبية الصغيرة. في هذا البحث، نوضح أن محولات الفيديو المقنّعة (VideoMAE) هي متعلمات فعالة من حيث البيانات للتدريب الذاتي الأولي على الفيديو (SSVP). لقد استلهمنا من ImageMAE الحديثة واقترحنا تقييدًا مخصصًا للفيديوهات بنسبة تقييد عالية للغاية. هذا التصميم البسيط يجعل إعادة بناء الفيديو مهمة ذات إشراف ذاتي أكثر تحديًا، مما يشجع على استخراج تمثيلات فيديو أكثر فعالية خلال عملية التدريب الأولي هذه. نحصل على ثلاثة اكتشافات مهمة حول SSVP: (1) نسبة تقييد عالية جدًا (أي 90٪ إلى 95٪) لا تزال تحقق أداءً مرضيًا لـ VideoMAE. المحتوى الفيديوي الزائد زمنياً يسمح بنسبة تقييد أعلى من تلك الموجودة في الصور. (2) يحقق VideoMAE نتائج مثيرة للإعجاب على مجموعات بيانات صغيرة جدًا (أي حوالي 3000-4000 فيديو) دون استخدام أي بيانات إضافية. (3) يظهر VideoMAE أن جودة البيانات أهم من كمية البيانات لـ SSVP. تعد الاختلاف بين مجموعات البيانات المستخدمة في التدريب الأولي ومجموعات البيانات الهدف مشكلة مهمة. بشكل لافت للنظر، يمكن لـ VideoMAE مع ViT العادي تحقيق دقة قدرها 87.4٪ على Kinetics-400، و75.4٪ على Something-Something V2، و91.3٪ على UCF101، و62.6٪ على HMDB51، دون استخدام أي بيانات إضافية. الرمز متاح في https://github.com/MCG-NJU/VideoMAE.