منذ 17 أيام

بيغ ترانسفير (بي تي): التعلم البصري العام للتمثيلات

Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby

الملخص

يُحسّن نقل التمثيلات المُدرّبة مسبقًا كفاءة العينات وتُبسّط عملية ضبط المُعامِلات عند تدريب الشبكات العصبية العميقة للرؤية الحاسوبية. نعيد النظر في النموذج التقليدي المتمثل في التدريب المسبق على مجموعات بيانات كبيرة مُوسَّعة، ثم التخصيص الدقيق للنموذج على المهمة المستهدفة. نُوسّع نطاق التدريب المسبق، ونُقدّم وصفة بسيطة نُسمّيها "النقل الكبير" (Big Transfer - BiT). وبدمج عدد قليل من المكونات المختارة بعناية، واستخدام مبدأ تجريبي بسيط لنقل المعرفة، نحقّق أداءً قويًا على أكثر من 20 مجموعة بيانات. يُظهر BiT أداءً جيدًا في نطاق واسع غير متوقع من أنماط البيانات — من مثال واحد لكل فئة إلى ما مجموعه مليون مثال. يحقق BiT دقة قمة أولى بنسبة 87.5% على ILSVRC-2012، و99.4% على CIFAR-10، و76.3% على معيار التكيف المهمة البصرية (VTAB) الذي يتضمّن 19 مهمة. وفي مجموعات البيانات الصغيرة، يحقق BiT دقة بنسبة 76.8% على ILSVRC-2012 باستخدام 10 أمثلة لكل فئة، و97.0% على CIFAR-10 باستخدام 10 أمثلة لكل فئة. أجرينا تحليلًا مفصلًا للمكونات الرئيسية التي تسهم في تحقيق أداء نقل عالٍ.