البحث الهيكلية العصبية عن الهيكل المعماري للتطابق العمق العميق

للتقليل من الجهد البشري المطلوب في تصميم الشبكات العصبية، تم تطبيق بحث الهيكل العصبي (NAS) بنجاح كبير على مهام الرؤية عالية المستوى المختلفة مثل التصنيف والتقسيم الدلالي. وتكمن الفكرة الأساسية وراء خوارزمية NAS في إتاحة القدرة للشبكة على اختيار أحد العمليات من مجموعة من العمليات (مثل التباعد باستخدام أحجام مرشحات مختلفة)، بحيث يمكن العثور على هيكل مثالي مُعدّل بشكل أفضل للمسألة المطروحة. ومع ذلك، حتى الآن لم تُستفد المهام البصرية الهندسية منخفضة المستوى، مثل مطابقة الأحجام الثلاثية (stereo matching)، من نجاح NAS. ويعود هذا جزئياً إلى أن الشبكات العميقة المتطورة حديثاً لمهام مطابقة الأحجام الثلاثية، المصممة يدويًا، أصبحت ضخمة جدًا. ويتطلب تطبيق NAS مباشرة على هذه الهياكل الضخمة موارد حسابية لا يمكن تحملها باستخدام الموارد الحاسوبية السائدة حاليًا. في هذه الورقة، نقترح أول إطار عمل لـ NAS الهرمي المتكامل (end-to-end hierarchical NAS) لمهام مطابقة الأحجام الثلاثية العميقة، من خلال دمج المعرفة البشرية المخصصة للمهمة ضمن إطار بحث الهيكل العصبي. وبشكل محدد، وباتباع مسار المعيار الذهبي لمهام مطابقة الأحجام الثلاثية العميقة (أي استخراج الميزات – بناء الحجم المميز والتطابق الكثيف)، نُحسّن هياكل مسار كامل العملية بشكل مشترك. وتُظهر التجارب الواسعة أن الشبكة التي تم اكتشافها تتفوق على جميع الهياكل العميقة المتطورة لمهام مطابقة الأحجام الثلاثية، وتحتل المرتبة الأولى في دقة التصنيف (top 1 accuracy) على معايير KITTI 2012 و2015 وMiddlebury، كما تحقق المرتبة الأولى على مجموعة بيانات SceneFlow، مع تحسين ملحوظ في حجم الشبكة وسرعة التنبؤ. يُمكن الوصول إلى الشفرة المصدرية من خلال الرابط: https://github.com/XuelianCheng/LEAStereo.