فعالية التدريب المسبق باستخدام MAE لتدريب نماذج بحجم مليارات المعالم

يعد هذا البحث مراجعة للنموذج التقليدي المتمثل في التدريب المسبق ثم التحسين الدقيق المستخدم في رؤية الحاسوب لأغراض التعرف البصري. عادةً ما يتم تدريب النماذج الأساسية الرائدة باستخدام مجموعات بيانات كبيرة الحجم (مشرف عليها بشكل ضعيف) تتضمن مليارات الصور. نقدم مرحلة تدريب مسبق إضافية بسيطة تعتمد على تقنية MAE ذاتية الإشراف لتهيئة النموذج. بينما أثبتت تقنية MAE قابلية توسعها فقط مع حجم النماذج، فقد اكتشفنا أنها تتوسع أيضًا مع حجم مجموعة البيانات التدريبية. وبالتالي، فإن تدريبنا المسبق القائم على MAE يتوسع مع كل من حجم النموذج وحجم البيانات، مما يجعله قابلاً للتطبيق في تدريب النماذج الأساسية. يحسن التدريب المسبق بشكل متسق من تقارب النموذج وأداء الانتقال إلى المهام اللاحقة عبر نطاق من أحجام النماذج (من ملايين إلى مليارات المعالم) ومجموعات بيانات (من ملايين إلى مليارات الصور). نقيس فعالية التدريب المسبق على عشرة مهام مختلفة للتعرف البصري تشمل تصنيف الصور، والتعرف على الفيديو، وكشف الأشياء، والتصنيف بنقطة واحدة، والتعرف بدون نقاط (Zero-shot recognition). حقق نموذجنا الأكبر نتائج جديدة رائدة في iNaturalist-18 (91.7%)، وImageNet-ReaL (91.1%)، وتصنيف ImageNet-1k بنقطة واحدة (63.6%)، والانتقال بدون نقاط على Food-101 (96.2%). يكشف بحثنا أن تهيئة النموذج لها دور مهم حتى في حالة التدريب المسبق بمقياس الويب باستخدام مليارات الصور، وأن نماذجنا متاحة للجمهور بشكل عام.