تلميحات عمق مونوكولار ذاتي التدريب

يمكن تدريب مُقدّرات العمق ذات العين الواحدة باستخدام أشكال متنوعة من التدريب الذاتي المستند إلى بيانات الاستereo الثنائي، وذلك لتجنب الحاجة إلى بيانات مسح ليزري عالية الجودة أو أي بيانات حقيقية أخرى (ground-truth). ولكن العيب في هذا النهج هو أن الخسائر البصرية الناتجة عن إعادة ترميز الصور (photometric reprojection losses)، التي تُستخدم عادة في التعلم الذاتي، غالبًا ما تمتلك العديد من القيم الدنيا المحلية. وقد تؤدي هذه البدائل المقنعة التي تشبه البيانات الحقيقية إلى تقييد ما يتعلمه شبكة الانحدار، مما يسبب تنبؤًا بخرائط عمق ذات جودة محدودة. كمثال بارز، غالبًا ما تُقدّر الظلال العميقة (depth discontinuities) حول الهياكل الرفيعة بشكل خاطئ من قبل أحدث الطرق المتطورة.في هذا العمل، ندرس مشكلة إعادة الترميز الغامضة في التنبؤ بالعمق باستخدام التدريب الذاتي المستند إلى الاستereo، ونقدّم ما يُسمى بـ "تلميحات العمق" (Depth Hints) لتخفيف آثارها. تُعد تلميحات العمق اقتراحات مكملة للعمق تُستخلص من خوارزميات استereo بسيطة جاهزة للاستخدام. وتعزز هذه التلميحات دالة الخسارة البصرية القائمة، وتُستخدم لتوجيه الشبكة نحو تعلّم أوزان أفضل. ولا تتطلب هذه التلميحات بيانات إضافية، ونفترض أنها صحيحة فقط في بعض الأحيان. ونُظهر أن استخدام تلميحات العمق يُحدث تحسينًا كبيرًا عند تدريب عدة نماذج رائدة للتدريب الذاتي المستند إلى الاستereo، وليس فقط نموذجنا الخاص. وبالإضافة إلى ذلك، وباستخدام ممارسات جيدة أخرى، نحقق تنبؤات عمق من الطراز الرائد (state-of-the-art) على معيار KITTI.