HyperAIHyperAI

Command Palette

Search for a command to run...

تنبؤ الميزة المُقنّعة للتدريب البصري الذاتي التحصيل

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

الملخص

نقدّم طريقة التنبؤ بالسمات المُقنّعة (Masked Feature Prediction، أو MaskFeat) لتدريب مُسبّق ذاتي للنماذج الفيديو. تعتمد هذه الطريقة على توليد تسلسل مُدخل عشوائيًا عن طريق إخفاء جزء من التسلسل، ثم التنبؤ بسمات المناطق المخفية. قمنا بدراسة خمسة أنواع مختلفة من السمات، ووجدنا أن "مصفوفات الاتجاهات الموجهة" (Histograms of Oriented Gradients، أو HOG)، وهي وصفة سمة مُصممة يدويًا، تُظهر أداءً متميزًا من حيث الكفاءة والأداء. لاحظنا أن عملية تطبيع التباين المحلي في HOG تُعدّ ضرورية لتحقيق نتائج جيدة، وهو ما يتماشى مع الدراسات السابقة التي استخدمت HOG في التعرف البصري. يمكن لطريقة MaskFeat تعلّم معرفة بصرية غنية وتحفيز نماذج مُعتمدة على مُحولّات (Transformer) كبيرة النطاق. وبلا استخدام أوزان إضافية للنموذج أو أي إشراف، حققت MaskFeat نتائج غير مسبوقة عند تدريبها مسبقًا على مقاطع فيديو غير موسومة: 86.7% على Kinetics-400 باستخدام MViT-L، و88.3% على Kinetics-600، و80.4% على Kinetics-700، و39.8 نقطة mAP على AVA، و75.0% على SSv2. كما تُظهر MaskFeat قدرة تعميم جيدة على الإدخالات الصورية، التي يمكن تفسيرها كفيديوهات ذات إطار واحد، وتُحقّق نتائج تنافسية على ImageNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp