MiniNet: شبكة عصبية تلافيفية متعددة الطبقات جدًا خفيفة الوزن لتقدير عمق مونوكولار غير مراقب في الزمن الحقيقي

تُعدّ توقع العمق من صورة واحدة موضوعًا بحثيًا جذابًا، لأنه يُضفي بعدًا إضافيًا من المعلومات، مما يمكّن الآلات من فهم العالم بشكل أفضل. في الآونة الأخيرة، برز التعلم العميق كنهج فعّال لتوقع العمق من منظور واحد. وبما أن جمع البيانات المُعلّمة مكلف، فقد اتجهت الاتجاهات الحديثة نحو الانتقال من التعلّم المُراقب إلى التعلّم غير المُراقب لتحقيق توقع عمق من منظور واحد. ومع ذلك، فإن معظم الطرق غير المُراقبة التي تُحقّق دقة عالية في توقع العمق تتطلّب بنية شبكة عميقة جدًا، وهي في الغالب ثقيلة جدًا ومعقدة لدرجة أنّها لا يمكن تشغيلها على الأجهزة المدمجة ذات المساحة المحدودة للتخزين والذاكرة. ولحل هذه المشكلة، نُقدّم شبكة قوية جديدة تضمّ وحدة تكرارية، تُمكّن من تحقيق قدرات الشبكات العميقة مع الحفاظ على حجم شديد الخفة، مما يسمح بتوقع عمق من منظور واحد غير مُراقب بسرعة عالية وفعالية في الزمن الحقيقي من تسلسلات فيديو. بالإضافة إلى ذلك، نُقدّم كتلة تكبير فعّالة جديدة تُدمج السمات من طبقة المُشفّر المرتبطة بها، وتعيد استعادة الحجم الفضائي للسمات باستخدام عدد ضئيل جدًا من معاملات النموذج. وقد تم التحقق من فعالية نهجنا من خلال تجارب واسعة النطاق على مجموعة بيانات KITTI. يمكن للنموذج الجديد أن يعمل بسرعة تصل إلى حوالي 110 إطارًا في الثانية (fps) على وحدة معالجة رسومات واحدة، و37 إطارًا في الثانية على وحدة معالجة مركزية واحدة، و2 إطار في الثانية على Raspberry Pi 3. علاوة على ذلك، يحقق دقة أعلى في توقع العمق مع عدد معاملات نموذج يقلّ بأكثر من 33 مرة مقارنةً بالنماذج الرائدة في مجالها. إلى حد علمنا، يُعدّ هذا العمل أول شبكة عصبية خفيفة جدًا بشكل استثنائي تم تدريبها على تسلسلات فيديو من منظور واحد لتحقيق توقع عمق من منظور واحد غير مُراقب في الزمن الحقيقي، مما يفتح الباب أمام تنفيذ توقعات عمق قائمة على التعلم العميق في الزمن الحقيقي وغير المُراقب على الأجهزة المدمجة منخفضة التكلفة.