المعلم غير المقنع: نحو نماذج الفيديو الأساسية ذات الكفاءة التدريبية

نماذج الأساس المرئية (VFMs) تلقت استكشافًا محدودًا بسبب التكاليف الحاسوبية العالية ونقص البيانات. تعتمد النماذج السابقة من VFMs على نماذج الأساس الصورية (IFMs)، والتي تواجه تحديات في الانتقال إلى مجال الفيديو. رغم أن VideoMAE قد درّب نموذج ViT قويًا من بيانات محدودة، فإن إعادة بناء المستوى المنخفض تشكل صعوبات في التقارب وتتعارض مع التناسق بين الأنظمة المتعددة على مستوى عالي. تقترح هذه الورقة طريقة فعالة من حيث التدريب للنماذج الحساسة للزمن (VFMs) التي تدمج مزايا الأساليب الموجودة. لزيادة كفاءة البيانات، نقوم بإخفاء معظم الرموز المرئية ذات الدلالات المنخفضة، ولكننا نتناسب بشكل انتقائي مع الرموز غير المخفية مع IFM، والذي يعمل كـ "المعلم الغير مخفي" (UMT). من خلال توفير إرشاد دلالي، يتيح أسلوبنا التقارب الأسرع والود المتعدد الوسائط. باستخدام إطار عمل تدريب متقدم، يمكن لنموذجنا التعامل مع مجموعة متنوعة من المهام بما في ذلك المهام المتعلقة بالمشهد، والمهام المتعلقة بالزمن، والفهم المعقد للفيديو-اللغة. باستخدام المصادر العامة فقط للتدريب لمدة 6 أيام على 32 بطاقة A100، حقق نموذج ViT-L/16 الذي بنيناه من الصفر أفضل الأداء على مجموعة متنوعة من مهام الفيديو. سيتم إطلاق الكود والنماذج على https://github.com/OpenGVLab/unmasked_teacher.