إعادة النظر في ResNets: استراتيجيات محسّنة للتدريب والتوسع

تُشغِل المعمارية الجديدة لرؤية الحاسوب الأضواء، لكن تأثير بنية النموذج غالبًا ما يُخلط مع التغيرات المتزامنة في أساليب التدريب واستراتيجيات التوسع. تعيد عملنا استعراض المعمارية القياسية ResNet (He et al., 2015)، وتدرس هذه الجوانب الثلاثة بهدف فصلها عن بعضها. ربما يكون من المفاجئ أن نجد أن أساليب التدريب واستراتيجيات التوسع قد تكون أكثر أهمية من التغيرات في البنية المعمارية، وأن النماذج الناتجة من ResNet تُواكب النماذج الأحدث والأكثر تقدمًا. نُظهر أن أفضل استراتيجية للتوسع تعتمد على نظام التدريب، ونقدّم استراتيجيتين جديدتين للتوسع: (1) توسيع عمق النموذج في الحالات التي قد تحدث فيها التفرع الزائد (بينما تكون توسعة العرض هي الخيار الأفضل في غيرها من الحالات)؛ (2) زيادة دقة الصورة بشكل أبطأ من التوصيات السابقة (Tan & Le, 2019). وباستخدام أساليب تدريب وتوسع محسّنة، نصمم مجموعة من هياكل ResNet تُسمى ResNet-RS، والتي تُسجّل سرعة تفوق ما بين 1.7 إلى 2.7 مرة مقارنة بـ EfficientNets على وحدات TPU، مع الحفاظ على دقة مماثلة على مجموعة بيانات ImageNet. وفي بيئة تعلم شبه مراقبة على نطاق واسع، تحقق ResNet-RS دقة بنسبة 86.2% في التصنيف الأولي على ImageNet، مع سرعة تفوق EfficientNet NoisyStudent بـ 4.7 مرة. كما تُحسّن تقنيات التدريب من أداء النقل على مجموعة متنوعة من المهام اللاحقة (مُنافسة لأفضل الخوارزميات ذاتية التعلّم الحديثة)، وتمتد هذه الاستراتيجيات إلى تصنيف الفيديو على مجموعة بيانات Kinetics-400. نوصي الباحثين والممارسين باستخدام هذه النماذج المُعدّلة البسيطة من ResNet كأساس لدراسات المستقبل.