HR-Depth: تقدير عمق مونوكولار ذاتي التدريب عالي الدقة

يُظهر التعلم الذاتي-الإشرافي إمكانات كبيرة في تقدير العمق من صورة واحدة، باستخدام تسلسلات الصور كمصدر وحيد للإشراف. وعلى الرغم من محاولة استخدام الصور عالية الدقة لتقدير العمق، لم تتحسن دقة التنبؤ بشكل ملحوظ. في هذا العمل، نجد أن السبب الجوهري يعود إلى تقدير غير دقيق للعمق في المناطق ذات التدرج الكبير، مما يؤدي إلى اختفاء خطأ الاستيفاء الخطي تدريجيًا مع زيادة الدقة. ولتحقيق تقدير أكثر دقة للعمق في المناطق ذات التدرج الكبير، يصبح من الضروري الحصول على ميزات عالية الدقة تحمل معلومات مكانية ودلالية. لذلك، نقدم نموذجًا مُحسَّنًا لـ DepthNet يُسمى HR-Depth، والذي يعتمد على استراتيجيتين فعّالتين: (1) إعادة تصميم الاتصالات الجانبية (skip-connection) في DepthNet للحصول على ميزات عالية الدقة أفضل، و(2) اقتراح وحدة دمج الميزات Squeeze-and-Excitation (fSE) لدمج الميزات بشكل أكثر كفاءة. باستخدام ResNet-18 كمُشفِّر (encoder)، يتفوق HR-Depth على جميع الطرق السابقة الأفضل (SoTA) من حيث الأداء، مع أقل عدد من المعاملات، سواء على الدقة العالية أو المنخفضة. علاوةً على ذلك، تعتمد الطرق السابقة الأفضل على شبكات معقدة جدًا وعميقة، تحتوي على عدد كبير جدًا من المعاملات، مما يحد من تطبيقاتها الحقيقية. ولذلك، قمنا أيضًا ببناء شبكة خفيفة الوزن تستخدم MobileNetV3 كمُشفِّر. تُظهر التجارب أن الشبكة الخفيفة يمكنها تحقيق أداءً يعادل العديد من النماذج الكبيرة مثل Monodepth2 عند الدقة العالية، وباستخدام فقط 20% من عدد المعاملات. سيتم إتاحة جميع الأكواد والنموذج عبر الرابط: https://github.com/shawLyu/HR-Depth.