HyperAIHyperAI

Command Palette

Search for a command to run...

المعلم غير المقنع: نحو نماذج الفيديو الأساسية ذات الكفاءة التدريبية

Kunchang Li Yali Wang Yizhuo Li Yi Wang Yinan He Limin Wang Yu Qiao

الملخص

نماذج الأساس المرئية (VFMs) تلقت استكشافًا محدودًا بسبب التكاليف الحاسوبية العالية ونقص البيانات. تعتمد النماذج السابقة من VFMs على نماذج الأساس الصورية (IFMs)، والتي تواجه تحديات في الانتقال إلى مجال الفيديو. رغم أن VideoMAE قد درّب نموذج ViT قويًا من بيانات محدودة، فإن إعادة بناء المستوى المنخفض تشكل صعوبات في التقارب وتتعارض مع التناسق بين الأنظمة المتعددة على مستوى عالي. تقترح هذه الورقة طريقة فعالة من حيث التدريب للنماذج الحساسة للزمن (VFMs) التي تدمج مزايا الأساليب الموجودة. لزيادة كفاءة البيانات، نقوم بإخفاء معظم الرموز المرئية ذات الدلالات المنخفضة، ولكننا نتناسب بشكل انتقائي مع الرموز غير المخفية مع IFM، والذي يعمل كـ "المعلم الغير مخفي" (UMT). من خلال توفير إرشاد دلالي، يتيح أسلوبنا التقارب الأسرع والود المتعدد الوسائط. باستخدام إطار عمل تدريب متقدم، يمكن لنموذجنا التعامل مع مجموعة متنوعة من المهام بما في ذلك المهام المتعلقة بالمشهد، والمهام المتعلقة بالزمن، والفهم المعقد للفيديو-اللغة. باستخدام المصادر العامة فقط للتدريب لمدة 6 أيام على 32 بطاقة A100، حقق نموذج ViT-L/16 الذي بنيناه من الصفر أفضل الأداء على مجموعة متنوعة من مهام الفيديو. سيتم إطلاق الكود والنماذج على https://github.com/OpenGVLab/unmasked_teacher.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp