الحفر في تقدير العمق المنفرد المستقل عن التصنيف

تُعدّ بيانات العمق الحقيقية لكل بكسل (per-pixel ground-truth depth data) صعبة التجميع على نطاق واسع. ول superar هذه القيود، ظهر التعلم الذاتي (self-supervised learning) كخيار واعد لتدريب النماذج على إجراء تقدير العمق أحادي العدسة (monocular depth estimation). في هذا البحث، نقترح مجموعة من التحسينات التي تؤدي معًا إلى تحسين ملحوظ في خرائط العمق من حيث الجودة الكمية والنوعية مقارنةً بالطرق المنافسة القائمة على التعلم الذاتي. وعادةً ما تستكشف الأبحاث المتعلقة بالتدرّب أحادي العدسة ذاتيًا بنى معمارية متقدمة بشكل متزايد، ووظائف خسارة معقدة، ونماذج تكوين الصورة، والتي ساهمت جميعها مؤخرًا في تقريب الفجوة بين الطرق ذات التدريب المُدرَّب بالكامل (fully-supervised) والطرق ذات التدريب الذاتي. ونُظهر أن نموذجًا بسيطًا بشكل مفاجئ، مع اختياريات تصميم محددة، يؤدي إلى تنبؤات أفضل. وبشكل خاص، نقترح (i) خسارة إعادة التكوين الدنيا (minimum reprojection loss)، المصممة لمعالجة الظلال (الإغلاق) بشكل موثوق، (ii) طريقة عينة متعددة المقاييس بحلّة كاملة (full-resolution multi-scale sampling)، التي تقلل من الشوائب البصرية، و (iii) خسارة تلقائية التمويه (auto-masking loss)، التي تتجاهل بكسلات التدريب التي تنتهك افتراضات حركة الكاميرا. ونُظهر فعالية كل مكوّن على حدة، ونُقدّم نتائج عالية الجودة ومتقدمة على مستوى العالم (state-of-the-art) على معيار KITTI.