دراسة على نطاق واسع لتعلم التمثيل باستخدام معيار تكييف المهمة البصرية

تُعدّ تعلّم التمثيل (Representation Learning) واعدة في تمكين التعلّم العميق من أجل المهام البصرية الطويلة الذيل (long tail of vision tasks) دون الحاجة إلى مجموعات بيانات مُعلّمة باهظة التكلفة. ومع ذلك، فإن غياب معيار تقييم موحّد للتمثيلات البصرية العامة يعيق التقدّم في هذا المجال. غالبًا ما تكون البروتوكولات الشائعة محدودة جدًا (مثل التصنيف الخطي)، أو محدودة في تنوعها (مثل ImageNet، CIFAR، Pascal-VOC)، أو مرتبطة بشكل ضعيف بجودة التمثيل (مثل ELBO، خطأ إعادة البناء). نقدّم معيار تقييم مهام التكيّف البصري (Visual Task Adaptation Benchmark - VTAB)، الذي يُعرّف التمثيلات الجيدة بأنها تلك التي تستطيع التكيّف مع مهام متنوعة وغير مسبوقة باستخدام عدد قليل من الأمثلة. باستخدام VTAB، نُجري دراسة شاملة على نطاق واسع لعدد كبير من خوارزميات تعلّم التمثيل الشائعة والمتاحة علنًا. ونُراعي بعناية العوامل المُشوِّشة مثل البنية المعمارية وحدود الميزانية التحسينية. ونُعالج أسئلة مثل: ما مدى فعالية تمثيلات ImageNet خارج نطاق مجموعات البيانات الطبيعية القياسية؟ وكيف تتفاوت التمثيلات المدربة باستخدام النماذج التوليدية مقابل النماذج التمييزية؟ إلى أي مدى يمكن للإشراف الذاتي أن يحل محل التسميات؟ وما مدى قربنا من تحقيق تمثيلات بصرية عامة؟