تحسين التقدير الذاتي غير المشرف للعمق من منظور واحد عن طريق التعتيم على الاحتشاد
يمكن تدريب نماذج تقدير العمق من صورة واحدة باستخدام نهج ذاتي الإشراف من النهاية إلى النهاية مع التركيب البصري كإشارة إشرافية. يتم تحقيق هذا من خلال إطار عمل يتنبأ بالعمق وحركة الكاميرا، مع خسارة تعتمد على إعادة بناء إطار فيديو مستهدف من الإطارات المجاورة زمنياً. في هذا السياق، تعتبر الظلال (occlusion) الأجزاء التي يمكن رؤيتها في الإطار المستهدف ولكن لا يمكن رؤيتها في الإطار المستخدم لإعادة بناء الصورة. بما أن إعادة بناء الصورة تعتمد على أخذ عينات من الإطار المجاور، فإن المناطق المظللة بتعريفها لا يمكن أخذ عينات منها، مما يؤدي إلى تلف إشارة الإشراف. في العمل السابق arXiv:1806.01260، تم التعامل مع الظلال بناءً على خطأ إعادة البناء؛ حيث يتم تضمين فقط إعادة البناء التي يكون فيها الخطأ الأقل في كل موقع بكسل ضمن الخسارة. يهدف البحث الحالي إلى تحديد ما إذا كان يمكن تحقيق تحسينات في أداء نماذج تقدير العمق عن طريق تجاهل المناطق المتضررة من الظلال أثناء التدريب.في هذا العمل، نقدم قناع الظل (occlusion mask)، وهو قناع يمكن استخدامه أثناء التدريب لتجاهل المناطق التي لا يمكن إعادة بنائها بسبب الظلال بشكل محدد. يعتمد قناع الظل بالكامل على المعلومات المتوقعة للعمق. نقدم صيغتين جديدتين للخسارة تدمجان قناع الظل. يعتبر طريقة التنفيذ الواردة في arXiv:1806.01260 الأساس لتعديلاتنا وكذلك نقطة المقارنة الأساسية في تجاربنا. نوضح أن (i) دمج قناع الظل في دالة الخسارة يحسن أداء نماذج تقدير العمق من صورة واحدة على معيار KITTI. (ii) دوال الخسارة التي تختار من عمليات إعادة البناء بناءً على الخطأ قادرة على تجاهل بعض خطأ إعادة الإسقاط الناجم عن حركة الأجسام.