شبكة CONVNEXT تحديًا جديدًا لنموذج VIT في تحليل الصور
ملخص في عام 2022، قدم باحثو شركة Meta ورقة بحثية بعنوان "شبكة حديثة للعقد الثالث والعشرين" (A ConvNet for the 2020s)، حيث اقترحوا نموذجًا جديدًا يُعرف بـ ConvNeXt. وقد أثار هذا النموذج تساؤلات حول ما إذا كانت الشبكات العصبية التقليدية (CNNs) قد أصبحت غير مهمة بسبب أداء شبكات ViT (Vision Transformer) المتميز. ومع ذلك، أثبت الباحثون أن التحسينات ليست فقط نتيجة بنية الشبكة، بل أيضًا بسبب تكوينات النموذج. أبرز التعديلات ضبط المعلمات الفائقة (Hyperparameter Tuning): تصميم الكرو (Macro Design): تم تغيير النسبة بين المراحل في ResNet إلى 1:1:3:1، مما أدى إلى زيادة الدقة بنسبة 0.6%. تعديلات على الطبقة الأولى: تم تغيير حجم النواة إلى 4×4 والخطوة إلى 4، مما أدى إلى زيادة بسيطة في الدقة. تعريب ResNeXt (ResNeXt-ification): تم تطبيق التحويل العمقوي (depthwise convolution) وزيادة عرض الشبكة، مما أدى إلى زيادة الدقة إلى 80.5%. البOTTLENECK المعكوس (Inverted Bottleneck): تم استخدام الهيكل المعكوس للبOTTLENECK من هيكل Transformer، مما أدى إلى زيادة الدقة إلى 80.6%. حجم النواة (Kernel Size): تم تغيير ترتيب الطبقات داخل البLOCK المعكوس للبOTTLENECK، مما أدى إلى انخفاض بسيط في الدقة. لكن بعد تجربة أحجام مختلفة للنواة، وجد أن حجم 7×7 كان الأفضل، مما أعاد زيادة الدقة إلى 80.6% مع كفاءة حسابية أقل. التصميم الدقيق (Micro Design): تم استبدال دالة التنشيط ReLU بدالة GELU، مما لم يؤثر على الدقة في البداية. تم تقليل عدد دوال التنشيط، مما أدى إلى زيادة الدقة إلى 81.3%. تم استخدام طبقة التطبيع المجزأ (layer normalization) بدلاً من التطبيع الدفعي (batch normalization)، مما رفع الدقة إلى 81.5%. تم إضافة طبقات التناقص الفوري (downsampling layers) واستخدام طبقات التطبيع المجزأ قبل كل منها، مما أدى إلى زيادة الدقة النهائية إلى 82.0% مع نفس الكفاءة الحسابية. تنفيذ ConvNeXt طبقة ConvNeXt Block: تم تطبيق هيكل الـ bottleneck المعكوس، والذي يتكون من ثلاث طبقات تحوّل: واحدة بحجم نواة 7×7 واثنتان بحجم نواة 1×1. تم استخدام دالة التنشيط GELU وطبقة التطبيع المجزأ (layer normalization). طبقة ConvNeXt Block Transition: تُستخدم عند الانتقال من مرحلة إلى أخرى، وتتضمن طبقة تناقص فوري (downsampling layer) وطبقة تطبيع مجزأ (layer normalization). تم تطبيقها في بداية كل مرحلة (res3, res4, res5) لزيادة عدد القنوات وتقليل الأبعاد المكانية. الهيكل الكامل لـ ConvNeXt: تم تقسيم الشبكة إلى مراحل: stem، res2، res3، res4، res5. تم استخدام طبقات ConvNeXt Block وConvNeXt Block Transition بشكل متكرر في كل مرحلة. تم استخدام طبقة avgpool لتقليل الأبعاد المكانية إلى 1×1 وطبقة fully-connected لتصنيف الصور. تقييم الحدث أظهرت النتائج أن ConvNeXt يمكن أن يتفوق على ViT وSwin Transformer في دقة التصنيف مع كفاءة حسابية أقل. هذا يؤكد أن الشبكات العصبية التقليدية (CNNs) لا تزال قادرة على المنافسة والتطور من خلال ضبط المعلمات الفائقة وتحسين التصميم الدقيق. شركة Meta شركة Meta هي شركة تكنولوجيا رائدة في مجال الذكاء الاصطناعي وتعلم الآلة. تركز الشركة على تطوير تقنيات مبتكرة لتحسين الأداء والكفاءة في مجموعة واسعة من التطبيقات، بما في ذلك الرؤية الحاسوبية ومعالجة الصور. البحوث التي أجرتها Meta في هذا المجال تساهم بشكل كبير في تطور تقنيات التعلم العميق وتطبيقاتها العملية.