HyT-NAS: بحث هجين في البنية العصبية للتحويلات لواجهات الحافة

أصبحت نماذج الرؤية المُعتمدة على التحفيز (Vision Transformers) قادرة على تحقيق نتائج ملحوظة في مهام الرؤية الحاسوبية (CV) ضمن هياكل التعلم العميق القائمة على التحفيز. ومع ذلك، نظرًا للاستهلاك الكبير للموارد الحسابية، فإن هذه الهياكل نادراً ما تُطبَّق على المنصات ذات الموارد المحدودة. تُركّز الأبحاث الحالية على نماذج هجينة تجمع بين التحويلات اليدوية (handcrafted convolution-based) والهياكل القائمة على التحفيز لمهام الرؤية الحاسوبية مثل تصنيف الصور وكشف الكائنات. في هذا البحث، نُقدّم HyT-NAS، وهي طريقة فعّالة لبحث الهيكل العصبي المُراعي للهاردوير (Hardware-aware Neural Architecture Search - HW-NAS)، تشمل هياكل هجينة مُصممة خصيصًا لمهام الرؤية على الأجهزة الصغيرة. تُحسّن HyT-NAS أداء النماذج الحالية من HW-NAS من خلال تنويع فضاء البحث، وتعزيز استراتيجية البحث، وتحسين نماذج التنبؤ بالأداء. تُظهر تجاربنا أن HyT-NAS تحقق حجمًا شبهيًا مماثلًا بقليل من تقييمات التدريب، أقل من 5 أضعاف. كما أن الهيكل الناتج يتفوّق على MobileNetV1 ضمن معيار MLPerf بتحسين دقيق بنسبة 6.3% مع تقليل عدد المعلمات بنسبة 3.5 مرة في مهمة Visual Wake Words.