FBNetV5: بحث في الهيكل العصبي لمهام متعددة في عملية واحدة

تم اعتماد بحث البنية العصبية (NAS) على نطاق واسع لتصميم نماذج تصنيف صور دقيقة وفعّالة. ومع ذلك، لا يزال يتطلب تطبيق NAS على مهمة جديدة في رؤية الحاسوب جهدًا كبيرًا. وذلك لأن: 1) ركّزت الأبحاث السابقة في مجال NAS بشكل مفرط على تصنيف الصور، بينما تجاهلت بشكل كبير المهام الأخرى؛ 2) يركّز العديد من أعمال NAS على تحسين مكونات مخصصة للمهمة، والتي لا يمكن نقلها بفعالية إلى مهام أخرى؛ و3) تم تصميم الطرق الحالية لـ NAS عادةً لتكون "بدون مُحاكاة" (proxyless)، مما يتطلب جهدًا كبيرًا لدمجها في خطوط إعداد التدريب الخاصة بكل مهمة جديدة. ولحل هذه التحديات، نقترح إطارًا جديدًا يُدعى FBNetV5، وهو إطار لـ NAS قادر على البحث عن هياكل شبكات عصبية لمجموعة متنوعة من مهام الرؤية، مع تقليل كبير في التكلفة الحسابية والجهد البشري. وبشكل خاص، قمنا بتصميم: 1) فضاء بحث بسيط لكن شامل وقابل للنقل؛ 2) عملية بحث متعددة المهام منفصلة تمامًا عن خط إعداد التدريب الخاص بالمهام المستهدفة؛ و3) خوارزمية تسمح بالبحث عن هياكل متعددة للمهام في آن واحد، بتكاليف حسابية لا تعتمد على عدد المهام. تم تقييم FBNetV5 المقترح على ثلاث مهام أساسية في مجال الرؤية: تصنيف الصور، كشف الكائنات، والتقسيم الدلالي. وقد أظهرت النماذج التي تم اكتشافها بواسطة FBNetV5 في عملية بحث واحدة أداءً أفضل من الأفضلية السابقة في جميع المهام الثلاث: تصنيف الصور (مثلًا، زيادة بنسبة 1.3% في دقة الصورة الأولى على ImageNet عند نفس عدد العمليات الحسابية المطلوبة بالمقارنة مع FBNetV3)، والتقسيم الدلالي (مثلًا، زيادة بنسبة 1.8% في متوسط مقياس التداخل (mIoU) على مجموعة بيانات ADE20K مع 3.6 مرة أقل في عدد العمليات الحسابية مقارنة بـ SegFormer)، وكشف الكائنات (مثلًا، زيادة بنسبة 1.1% في متوسط دقة التصنيف (mAP) على مجموعة بيانات COCO مع 1.2 مرة أقل في عدد العمليات الحسابية مقارنة بـ YOLOX).