Auto-DeepLab: البحث عن بنية العصبونات الهرمية لتقسيم الصور الدلالي

في الآونة الأخيرة، نجحت تقنية البحث عن الهندسة المعمارية العصبية (Neural Architecture Search - NAS) في تحديد هياكل شبكات عصبية تتفوق على تلك المصممة من قبل البشر في تصنيف الصور على نطاق واسع. في هذا البحث، ندرس استخدام NAS للتقسيم الدلالي للصور. غالباً ما تركز الدراسات السابقة على البحث عن هيكل الخلية القابل للتكرار، بينما يتم تصميم الهيكل الخارجي للشبكة يدوياً والذي يتحكم في التغيرات الفضائية للدقة. هذا الخيار يبسط فضاء البحث، ولكنه يصبح مشكلة متزايدة في التنبؤ الكثيف بالصور التي تظهر فيها العديد من التغييرات الهيكلية على مستوى الشبكة. لذلك، نقترح البحث عن هيكل الشبكة على المستوى الأعلى بالإضافة إلى هيكل الخلية، مما يشكل مساحة بحث هرمية. نقدم مساحة بحث على مستوى الشبكة تشمل العديد من التصميمات الشائعة، ونطور صيغة تسمح بالبحث عن الهندسة المعمارية باستخدام التدرج بكفاءة (3 أيام على صور Cityscapes باستخدام 3 بطاقات P100 GPU). نوضح فعالية الطريقة المقترحة على مجموعات البيانات الصعبة Cityscapes وPASCAL VOC 2012 وADE20K. Auto-DeepLab، وهي الهندسة المعمارية التي بحثنا عنها خصيصاً للتقسيم الدلالي للصور، حققت أداءً رائدًا دون أي تدريب مسبق على ImageNet.