CamLessMonoDepth: تقدير العمق الأحادي مع معاملات كاميرا غير معروفة

يُعد استشعار المعلومات ثلاثية الأبعاد أمرًا بالغ الأهمية في العديد من تطبيقات رؤية الحاسوب. أظهرت التطورات الحديثة في تقدير العمق من صورة واحدة أن من الممكن اكتساب هذه المعرفة من مدخل بصري واحد من خلال تدريب الشبكات العصبية العميقة لتقدير العمق العكسي والوضع، دون الحاجة إلى بيانات حقيقية (ground truth). ومع ذلك، تتطلب معظم هذه الأساليب إدخال معاملات الكاميرا بشكل صريح أثناء التدريب، مما يمنع استخدام تسلسلات الصور من البيئات الطبيعية (wild) أثناء التدريب. ورغم وجود طرق تُقدّر معاملات الكاميرا الداخليّة (intrinsics) أيضًا، إلا أن أداؤها لا يزال متأخرًا مقارنة بالأساليب الحديثة التي تأخذ معاملات الكاميرا كمدخلات مباشرة. في هذا العمل، نقترح طريقة لتقدير معاملات الكاميرا المثالية (pinhole camera intrinsics) بشكل غير مباشر، إلى جانب تقدير العمق والوضع، من خلال التعلّم فقط من تسلسلات صور مونوكولار (monocular). وبالإضافة إلى ذلك، وباستخدام عمليات ترقيع فرعية دقيقة (sub-pixel convolutions) ذات كفاءة عالية، نُظهر إمكانية الحصول على تقديرات عمق عالية الدقة. كما ندمج تقديرًا للشكوك على مستوى كل بكسل داخل الإطار، مما يُبرز الإمكانية التطبيقية الواسعة لهذا العمل في المجالات العملية. وأخيرًا، نُثبت إمكانية التنبؤ بدقة بمعلومات العمق دون افتراض مسبق لمعاملات الكاميرا، مع تفوق الأداء على أفضل الطرق الحالية على معيار KITTI.