التدريب المسبق ذاتيًا لميزات بصرية في البيئة البرية

في الآونة الأخيرة، قلّصت أساليب التعلم ذاتي التوجيه مثل MoCo وSimCLR وBYOL وSwAV الفجوة مع الأساليب المراقبة. وقد تم تحقيق هذه النتائج في بيئة مُحكَمة، أي على مجموعة بيانات ImageNet التي تم تجهيزها بدقة عالية. ومع ذلك، يُفترض أن يكون التعلم ذاتي التوجيه قادرًا على التعلّم من أي صورة عشوائية ومن أي مجموعة بيانات غير محدودة. وفي هذه الدراسة، نستكشف ما إذا كان التعلم ذاتي التوجيه يُحقّق توقعاته من خلال تدريب نماذج كبيرة على صور عشوائية وغير مُنظَّمة دون أي توجيه. يُقدّم نموذجنا النهائي، المعروف بـ SElf-supERvised (SEER)، وهو نموذج RegNetY يحتوي على 1.3 مليار معلمة، تم تدريبه على مليار صورة عشوائية باستخدام 512 وحدة معالجة رسومية (GPU)، دقة أعلى من 84.2% في التصنيف الأولي (top-1)، متفوّقًا على أفضل نموذج مُدرّب ذاتيًا مسبقًا بنسبة 1%، مما يؤكد أن التعلم ذاتي التوجيه ينجح في بيئة واقعية حقيقية. وبشكل مثير للاهتمام، لاحظنا أيضًا أن النماذج ذاتية التوجيه تُظهر مهارات جيدة في التعلّم بكميات قليلة من البيانات، حيث حققت دقة قدرها 77.9% في التصنيف الأولي مع الوصول فقط إلى 10% من مجموعة بيانات ImageNet. الكود: https://github.com/facebookresearch/vissl