SCIPaD: دمج التلميحات المكانية في التعلم المشترك غير المراقب للوضع والعمق

أظهرت أطر العمل المعتمدة على التقدير غير المُشرَّف لعمق الصورة الواحدة أداءً واعدًا في التطبيقات المرتبطة بالقيادة الذاتية. ومع ذلك، تعتمد الحلول الحالية بشكل رئيسي على شبكة عصبية تلافيفية بسيطة لاستعادة الحركة الذاتية (ego-motion)، وهي ما يعاني من صعوبة في تقدير مواقع الكاميرا بدقة في السيناريوهات الواقعية الديناميكية والمعقدة. وقد يؤدي تقدير مواقع الكاميرا غير الدقيق إلى تدهور حتمي في إعادة بناء الصور الضوئية، كما يُضلل شبكات تقدير العمق بعلامات إشرافية خاطئة. في هذا المقال، نقدّم SCIPaD، منهجية جديدة تدمج أدلة مكانيّة لتعلم عميق-موضع مشترك غير مُشرَّف. بشكل خاص، نقترح مُقدّم تدفق ميزات يراعي الثقة، والذي يُسهم في استخلاص انتقالات الموضع ثنائية الأبعاد للميزات ومستويات الثقة المرتبطة بها. وفي الوقت نفسه، نقدّم مُجمّع أدلة موضعية، الذي يدمج السحابات ثلاثية الأبعاد الافتراضية الناتجة عن DepthNet مع تدفقات الميزات ثنائية الأبعاد في تمثيلات موضعية متجانسة. وأخيرًا، نقترح مُحقِّن تضمين مكاني هرمي، الذي يُضمن بشكل انتقائي أدلة مكانيّة في الميزات الشكلية لتمكين استخلاص موضع الكاميرا بشكل أكثر موثوقية. تُظهر التجارب الواسعة والتحليلات المعمقة الأداء المتفوق لنموذجنا مقارنةً بالأساليب الرائدة الأخرى. وتجدر الإشارة إلى أن SCIPaD حقق خفضًا بنسبة 22.2% في متوسط خطأ الانتقال و34.8% في متوسط خطأ الزاوية في مهمة تقدير موضع الكاميرا على مجموعة بيانات KITTI Odometry. يمكن الوصول إلى الشفرة المصدرية لنموذجنا عبر الرابط: \url{https://mias.group/SCIPaD}.