التعلم الذاتي المُراقب للثبات البصري الناتج عن الفيديو

نُقدِّم إطارًا عامًا للتعلم الخاضع للإشراف الذاتي على تمثيلات بصرية قابلة للتحويل، مبنيًا على التحولات البصرية المُحفَّزة بالفيديو (VIVI). نأخذ بعين الاعتبار الهرم الضمني الموجود في الفيديوهات، ونستفيد من (أ) التحولات على مستوى الإطارات (مثل الاستقرار تجاه التغيرات في اللون والتناقض)، و(ب) التحولات على مستوى المشهد/القطعة (مثل المقاومة للتغيرات في اتجاه الكائن وظروف الإضاءة)، و(ج) التحولات على مستوى الفيديو (العلاقات الدلالية بين المشاهد عبر القطع/المشاهد)، لتحديد خسارة ذاتية الإشراف الشاملة. عند تدريب النماذج باستخدام نماذج مختلفة من الإطار المقترح على مقاطع فيديو من مجموعة بيانات YouTube-8M (YT8M)، نحصل على نتائج متميزة في التعلم الانتقالي الخاضع للإشراف الذاتي على 19 مهمة تطبيقية متنوعة ضمن معيار التكيّف المهمات البصرية (VTAB)، باستخدام فقط 1000 علامة لكل مهمة. ثم نُظهِر كيفية تدريب نماذجنا بشكل مشترك مع صور مُعلَّمة، مما يُفوق نموذج ResNet-50 المُدرَّب مسبقًا على ImageNet بنسبة 0.8 نقطة باستخدام 10 أضعاف أقل من الصور المُعلَّمة، كما يتفوّق على أفضل نموذج مُدرَّب مسبقًا سابقًا بنسبة 3.7 نقطة باستخدام مجموعة بيانات ImageNet الكاملة.