تعلم عمق متسق مع المقياس دون إشراف من الفيديو

نُقدّم مُقدّر عمق من نوع Monocular يُسمّى SC-Depth، الذي يُطلَب منه فقط مقاطع فيديو غير مُوسَّمة لتدريب النموذج، ويُمكّن من توقع عمق متسق من حيث المقياس أثناء عملية الاستدلال. تتمثل مساهماتنا في: (i) اقتراح خسارة اتساق هندسي، تُعاقب على عدم اتساق العمق المُتوقع بين المنظورات المجاورة؛ (ii) اقتراح قناع ذاتي الاكتشاف لتحديد حركات الكائنات تلقائيًا، والتي تنتهك افتراض المشهد الثابت الكامن وراء النموذج، وتُسبب إشارات ضوضائية أثناء التدريب؛ (iii) إثبات فعالية كل مكوّن من المكوّنات من خلال دراسة تحليلية مفصلة، وعرض نتائج توقع عمق عالية الجودة على كلا المجموعتين KITTI وNYUv2. علاوةً على ذلك، وبفضل القدرة على التوقع المتسق من حيث المقياس، نُظهر أن الشبكات العميقة المدربة بمنظر واحد يمكن دمجها بسهولة في نظام ORB-SLAM2 لتحسين دقة التتبع وثباته. وتشهد النتيجة النهائية للنظام الهجين Pseudo-RGBD SLAM نتائج مُقنعة على مجموعة KITTI، وتمتد تعميماتها بفعالية إلى مجموعة KAIST دون الحاجة إلى تدريب إضافي. وأخيرًا، نقدّم عدة عروض توضيحية لتقييم بصري.