إعادة النظر في تقدير العمق من صورة واحدة: نحو خرائط بدقة أعلى وحدود أشياء دقيقة

يتناول هذا البحث مشكلة تقدير العمق من صورة واحدة. لقد أدى استخدام شبكات النيورونات التلافيفية (CNNs) مؤخرًا إلى تقدم كبير في دراسة هذه المشكلة. ومع ذلك، تعاني معظم الأساليب الحالية من فقدان الدقة المكانية في الخرائط المقدرة للعمق؛ ومن الأعراض الشائعة تشوه وإبهام حدود الأشياء عند إعادة بنائها. في هذا البحث، وفي سبيل تحقيق تقدير أكثر دقة مع التركيز على الخرائط ذات الدقة المكانية الأعلى، نقترح تحسينين اثنين على الأساليب القائمة. الأول يتعلق باستراتيجية دمج الخصائص المستخرجة بمختلف المقاييس، حيث نقترح هندسة شبكة محسنة تتكون من أربعة وحدات: وحدة الترميز، وحدة فك الترميز، وحدة دمج الخصائص متعددة المقاييس، ووحدة التعديل. الثاني يتعلق بوظائف الخسارة المستخدمة لقياس أخطاء الاستدلال أثناء التدريب. نوضح أن ثلاثة مصطلحات للخسارة، التي تقيس الأخطاء في العمق والتدرجات والمسارح الطبيعية (surface normals) على التوالي، تسهم بطريقة مكملة في تحسين الدقة. تظهر النتائج التجريبية أن هذين التحسنين يمكّنان من تحقيق دقة أعلى من أفضل التقنيات الحالية، وذلك يتمثل بشكل خاص في إعادة بناء ذات دقة أعلى للأجسام الصغيرة وحدود الأجسام.