Command Palette
Search for a command to run...
GhostNetV3: استكشاف استراتيجيات التدريب للنماذج المدمجة
GhostNetV3: استكشاف استراتيجيات التدريب للنماذج المدمجة
Zhenhua Liu Zhiwei Hao Kai Han Yehui Tang Yunhe Wang
الملخص
تم تصميم الشبكات العصبية المدمجة خصيصًا للتطبيقات على الأجهزة الحافة، حيث تتميز بسرعة استنتاج أسرع مع أداء معتدل. ومع ذلك، تُستلَم حاليًا استراتيجيات التدريب الخاصة بالنموذج المدمج من استراتيجيات النماذج التقليدية، مما يتجاهل الفرق في قدرة النموذج، وبالتالي قد يعيق أداء النماذج المدمجة. في هذه الورقة، وباستقصاء منهجي لتأثير عناصر التدريب المختلفة، نقدّم استراتيجية تدريب قوية للنماذج المدمجة. ونلاحظ أن التصاميم المناسبة لتقنية إعادة التوليف (re-parameterization) والتوصيل المعرفي (knowledge distillation) تُعدّ حاسمة في تدريب نماذج مدمجة عالية الأداء، في حين أن بعض تقنيات تكبير البيانات الشائعة في تدريب النماذج التقليدية، مثل Mixup وCutMix، تؤدي إلى أداء أسوأ. تُظهر تجاربنا على مجموعة بيانات ImageNet-1K أن الاستراتيجية المخصصة للتدريب الخاصة بالنموذج المدمج قابلة للتطبيق على مختلف الهياكل المعمارية، بما في ذلك GhostNetV2 وMobileNetV2 وShuffleNetV2. وبشكل خاص، وباستخدام استراتيجيتنا، تحقق GhostNetV3 1.3× دقة أعلى بنسبة 79.1% مع 269 مليون عملية فلو (FLOPs) فقط، وتأخير قدره 14.46 مللي ثانية على الأجهزة المحمولة، متفوقةً بفارق كبير على النسخة المدربة بشكل تقليدي. علاوةً على ذلك، يمكن توسيع ملاحظاتنا لتشمل سيناريوهات الكشف عن الكائنات. يمكن العثور على كود PyTorch والملفات المحفوظة (checkpoints) على الرابط التالي: https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch.