HyperAIHyperAI

Command Palette

Search for a command to run...

MobileNetV3 معمق: تفاصيل الهيكل، التحسينات الذكية، وتنفيذ من الصفر

تم إصدار موديل MobileNetV3 في عام 2019 من قبل فريق بقيادة أندرو هوارد، كتحديث متقدم لسلسلة MobileNet، مصمم خصيصًا لتحسين الأداء على الأجهزة المحمولة ذات الموارد المحدودة. يعتمد التصميم على مبادئ MobileNetV2، لكنه يضيف تحسينات جوهرية تشمل دمج وحدات Squeeze-and-Excitation (SE) واعتماد دوال تنشيط "صعبة" (Hard Activations) لتقليل التكلفة الحسابية مع الحفاظ على الدقة. يقدم MobileNetV3 نسختين رئيسيتين: MobileNetV3-Large وMobileNetV3-Small، وهما مبنيان على وحدات "بنتش" (bneck) مُعدّلة. تختلف هذه الوحدات عن نسخة MobileNetV2 بوجود وحدة SE بعد الطبقة العميقة (depthwise convolution)، والتي تُعدّل أوزان القنوات حسب أهميتها، مما يسمح للنموذج بتركيز انتباهه على القنوات الأكثر فائدة. كما تم استبدال دالة التنشيط ReLU6 بـ Hard-Swish في الطبقات الأولى، وحُوّلت دالة sigmoid إلى Hard-Sigmoid في وحدة SE، بهدف تقليل التكلفة الحسابية على الأجهزة منخفضة الطاقة. التصميم الكلي يعتمد جزئيًا على تقنية البحث الهيكلية للشبكات العصبية (NAS)، حيث تم استخدامها لاختيار التكوين الأمثل للبنية، مع التوازن بين الدقة والتأخير (latency). في النسخة الكبيرة، تم تضمين وحدة SE في بعض الطبقات فقط، حسب ما أظهرته عملية البحث، مما يدل على أن تطبيقها ليس دائمًا مفيدًا. أظهرت النتائج التجريبية أن MobileNetV3 يتفوق على MobileNetV2 من حيث الدقة عند نفس مستوى التأخير، خاصة في النسخة الكبيرة. كما تفوق على نماذج خفيفة أخرى مثل MnasNet-A1 في الدقة، رغم ارتفاع عدد المعلمات قليلاً، لكنه يحقق أداءً أسرع نسبيًا. عند تطبيق التكميم (quantization)، تقلّ التكلفة الحسابية بشكل ملحوظ، رغم انخفاض طفيف في الدقة. تم تنفيذ النموذج من الصفر باستخدام PyTorch، مع تجميع المكونات الأساسية في فئات منظمة: وحدة SE، وحدة تكوين (ConvBlock)، ووحدة البنتش. تم التحقق من صحة التصميم من خلال تمرير مدخلات اصطناعية وتأكيد تطابق أبعاد المخرجات مع الهيكل المذكور في الورقة. النموذج النهائي يحتوي على حوالي 5.5 مليون معلمة، وهو ما يتطابق مع النتائج المنشورة. يُعد MobileNetV3 نموذجًا مثاليًا للتطبيقات التي تتطلب كفاءة عالية في الحوسبة، مثل التصنيف الصوتي، التعرف على الوجوه، أو التصنيف في الأجهزة المحمولة، مع إمكانية التخصيص عبر معلمتين: معامل العرض (width multiplier) ودقة المدخل (input resolution).

الروابط ذات الصلة

MobileNetV3 معمق: تفاصيل الهيكل، التحسينات الذكية، وتنفيذ من الصفر | القصص الشائعة | HyperAI