في سي-ماي: التعلم التمثيلي التلقائي من الصور والفيديوهات باستخدام مُشَكِّلات مُتَعَمِّدة مُتَقَارِنة

نُقدّم نموذج ViC-MAE، الذي يدمج بين مُشفّرات الترميز المُقنّعة (MAE) والتعلّم التمييزي. يتم تدريب ViC-MAE باستخدام تمثيلات عامة مُستخلصة من تجميع التمثيلات المحلية التي تم تعلّمها تحت خسارة إعادة بناء MAE، مع الاستفادة من هذا التمثيل تحت هدف تمييزي عبر الصور والإطارات الفيديوية. نُظهر أن التمثيلات البصرية التي يتعلمها النموذج تحت ViC-MAE تُظهر أداءً جيدًا في التعميم على مهام تصنيف الصور والفيديوهات. وبشكل خاص، يحقق ViC-MAE أفضل أداء في التعلم الانتقالي من الفيديو إلى الصور على مجموعة بيانات Imagenet-1k مقارنةً بالنموذج الأخير المُقترح OmniMAE، حيث يحقق دقة أعلى في التصنيف الأولي (Top-1) بنسبة 86% (بزيادة مطلقة قدرها 1.3% عند التدريب على نفس البيانات)، و87.1% (بزيادة مطلقة قدرها 2.4% عند التدريب على بيانات إضافية). وفي الوقت نفسه، يتفوّق ViC-MAE على معظم الطرق الأخرى في معايير الفيديو، حيث يحقق دقة تصنيف أولي (Top-1) قدرها 75.9% على معيار الفيديو الصعب Something-something-v2. وباستخدام بيانات متنوعة من مجموعات بيانات مختلفة للتدريب على الصور والفيديوهات، يحافظ نهجنا على أداء متوازن في التعلم الانتقالي بين معايير تصنيف الفيديو والصور، ويأتي في المرتبة الثانية بفارق ضئيل فقط عن أفضل طريقة مُدرّبة بشكل مراقب.