تعلم تقدير العمق الأحادي العين باستخدام الافتراضات الثلاثية العيون غير المراقبة

الحصول على قياسات عمق دقيقة من صورة واحدة يمثل حلًا مثيرًا للاهتمام في مجال الاستشعار ثلاثي الأبعاد. أدت الشبكات العصبية التلافيفية (CNNs) إلى تحسينات كبيرة في هذا المجال، واتجاهات حديثة استبدلت الحاجة إلى تسميات حقيقية بالأرض ب-signals لإعادة بناء الصور بتوجيه هندسي مما يمكن التدريب غير المشرف. حاليًا، لأغراض هذا الغرض، تعتمد التقنيات الرائدة على صور تم التقاطها باستخدام جهاز استريو ثنائي العينين للتنبؤ بالعمق العكسي (أي الاختلاف) وفقًا لمبدأ الإشراف المذكور أعلاه. ومع ذلك، تعاني هذه الطرق من مشاكل معروفة بالقرب من الانغلاق، حدود الصورة اليسرى، إلخ التي ترثها من التركيب الاستريو. لذلك، في هذه الورقة البحثية، نواجه هذه القضايا بالانتقال إلى مجال ثلاثي العينين للتدريب. بافتراض أن الصورة الوسطى هي المرجع، نقوم بتدريب شبكة عصبية تلافيفية لاستنتاج تمثيلات الاختلاف بربط هذه الصورة بالإطارات على الجانب الأيسر والأيمن منها. يسمح هذا الاستراتيجية بحصول خرائط عمق غير متأثرة بالعيوب النموذجية للتركيب الاستريو. بالإضافة إلى ذلك، نظرًا لندرة مجموعات البيانات ثلاثية العينين، نقدم إجراءً جديدًا للتدريب المتداخل يمكّننا من فرض الفرضية الثلاثية العيون المستنتجة من مجموعات البيانات الثنائية الحالية. تؤكد النتائج التجريبية الشاملة على مجموعة بيانات KITTI أن مقترحنا يتفوق على الأساليب الرائدة في التقدير غير المشرف للعمق الأحادي العين الذي يتم تدريبه على أزواج استريو ثنائية العيون وكذلك أي طرق معروفة تعتمد على مؤشرات أخرى.