HyperAIHyperAI

Command Palette

Search for a command to run...

VideoMAE: المُشغّلات ذات الترميز المقنّع هي متعلمات فعالة من حيث البيانات للتدريب الذاتي المُشرف على الفيديو

Zhan Tong; Yibing Song; Jue Wang; Limin Wang

الملخص

تتطلب التدريب الأولي للمحولات الفيديو على مجموعات بيانات ذات حجم إضافي كبير عادةً لتحقيق الأداء المتميز على مجموعات البيانات النسبية الصغيرة. في هذا البحث، نوضح أن محولات الفيديو المقنّعة (VideoMAE) هي متعلمات فعالة من حيث البيانات للتدريب الذاتي الأولي على الفيديو (SSVP). لقد استلهمنا من ImageMAE الحديثة واقترحنا تقييدًا مخصصًا للفيديوهات بنسبة تقييد عالية للغاية. هذا التصميم البسيط يجعل إعادة بناء الفيديو مهمة ذات إشراف ذاتي أكثر تحديًا، مما يشجع على استخراج تمثيلات فيديو أكثر فعالية خلال عملية التدريب الأولي هذه. نحصل على ثلاثة اكتشافات مهمة حول SSVP: (1) نسبة تقييد عالية جدًا (أي 90٪ إلى 95٪) لا تزال تحقق أداءً مرضيًا لـ VideoMAE. المحتوى الفيديوي الزائد زمنياً يسمح بنسبة تقييد أعلى من تلك الموجودة في الصور. (2) يحقق VideoMAE نتائج مثيرة للإعجاب على مجموعات بيانات صغيرة جدًا (أي حوالي 3000-4000 فيديو) دون استخدام أي بيانات إضافية. (3) يظهر VideoMAE أن جودة البيانات أهم من كمية البيانات لـ SSVP. تعد الاختلاف بين مجموعات البيانات المستخدمة في التدريب الأولي ومجموعات البيانات الهدف مشكلة مهمة. بشكل لافت للنظر، يمكن لـ VideoMAE مع ViT العادي تحقيق دقة قدرها 87.4٪ على Kinetics-400، و75.4٪ على Something-Something V2، و91.3٪ على UCF101، و62.6٪ على HMDB51، دون استخدام أي بيانات إضافية. الرمز متاح في https://github.com/MCG-NJU/VideoMAE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp