EfficientNetV2: نماذج أصغر وأسرع في التدريب

يقدّم هذا البحث عائلة EfficientNetV2، وهي مجموعة جديدة من الشبكات التلافيفية (convolutional networks) التي تتميز بسرعة تدريب أسرع وكفاءة أعلى في استخدام المعلمات مقارنةً بالنماذج السابقة. ولتطوير هذه العائلة، نستخدم مزيجًا من بحث هندسة الشبكة العصبية المستندة إلى التدريب (training-aware neural architecture search) وتقنيات التوسيع (scaling)، بهدف تحسين سرعة التدريب وكفاءة المعلمات معًا. تم البحث عن النماذج داخل فضاء بحث تم تحسينه بإدخال وحدات جديدة مثل Fused-MBConv. تُظهر التجارب أن نماذج EfficientNetV2 تتدرب بشكل أسرع بكثير من النماذج الرائدة حاليًا، مع أن حجمها قد يكون أصغر بنسبة تصل إلى 6.8 مرة.يمكن تسريع التدريب بشكل إضافي من خلال زيادة حجم الصور تدريجيًا خلال عملية التدريب، لكن هذا غالبًا ما يؤدي إلى انخفاض في الدقة. لتعويض هذا الانخفاض، نقترح تعديلًا تلقائيًا لآليات الت régularization (مثل التراجع العشوائي Dropout والتوسيع التوافقي للبيانات)، بحيث نتمكن من تحقيق كلا الهدفين: سرعة تدريب عالية ودقة جيدة في آنٍ واحد.باستخدام تقنية التعلم التدريجي (progressive learning)، تتفوّق نماذج EfficientNetV2 بشكل كبير على النماذج السابقة على مجموعات بيانات ImageNet وCIFAR/Cars/Flowers. وباستخدام التدريب المسبق على نفس مجموعة ImageNet21k، تحقق EfficientNetV2 دقة تصل إلى 87.3% في المقياس الأولي (top-1) على ImageNet ILSVRC2012، متفوّقةً على النموذج الأخير من نوع ViT بنسبة 2.0%، مع تدريب أسرع بـ 5 إلى 11 مرة باستخدام نفس الموارد الحاسوبية. سيتم إتاحة الكود على الرابط التالي: https://github.com/google/automl/tree/master/efficientnetv2.