HyperAIHyperAI
منذ 17 أيام

دراسة على نطاق واسع لتعلم التمثيل باستخدام معيار تكييف المهمة البصرية

Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby
دراسة على نطاق واسع لتعلم التمثيل باستخدام معيار تكييف المهمة البصرية
الملخص

تُعدّ تعلّم التمثيل (Representation Learning) واعدة في تمكين التعلّم العميق من أجل المهام البصرية الطويلة الذيل (long tail of vision tasks) دون الحاجة إلى مجموعات بيانات مُعلّمة باهظة التكلفة. ومع ذلك، فإن غياب معيار تقييم موحّد للتمثيلات البصرية العامة يعيق التقدّم في هذا المجال. غالبًا ما تكون البروتوكولات الشائعة محدودة جدًا (مثل التصنيف الخطي)، أو محدودة في تنوعها (مثل ImageNet، CIFAR، Pascal-VOC)، أو مرتبطة بشكل ضعيف بجودة التمثيل (مثل ELBO، خطأ إعادة البناء). نقدّم معيار تقييم مهام التكيّف البصري (Visual Task Adaptation Benchmark - VTAB)، الذي يُعرّف التمثيلات الجيدة بأنها تلك التي تستطيع التكيّف مع مهام متنوعة وغير مسبوقة باستخدام عدد قليل من الأمثلة. باستخدام VTAB، نُجري دراسة شاملة على نطاق واسع لعدد كبير من خوارزميات تعلّم التمثيل الشائعة والمتاحة علنًا. ونُراعي بعناية العوامل المُشوِّشة مثل البنية المعمارية وحدود الميزانية التحسينية. ونُعالج أسئلة مثل: ما مدى فعالية تمثيلات ImageNet خارج نطاق مجموعات البيانات الطبيعية القياسية؟ وكيف تتفاوت التمثيلات المدربة باستخدام النماذج التوليدية مقابل النماذج التمييزية؟ إلى أي مدى يمكن للإشراف الذاتي أن يحل محل التسميات؟ وما مدى قربنا من تحقيق تمثيلات بصرية عامة؟