التعلم الواعي للهندسة لخرائط تحديد موقع الكاميرا

الخرائط هي مكون أساسي في أنظمة تحديد موقع الكاميرا القائمة على الصور وفي أنظمة SLAM البصرية: يتم استخدامها لتأسيس قيود هندسية بين الصور، تصحيح الانحراف في تقدير الوضع النسبي، وإعادة تحديد موقع الكاميرات بعد فقدان التتبع. ومع ذلك، فإن التعريفات الدقيقة للخرائط غالبًا ما تكون خاصة بالتطبيق وتُصمم يدويًا لمختلف السيناريوهات (مثل المعالم ثلاثية الأبعاد، الخطوط، المستويات، وأكياس الكلمات البصرية). نقترح تمثيل الخرائط كشبكة عصبية عميقة تُسمى MapNet، والتي تتيح تعلم تمثيل خريطة معتمد على البيانات. بخلاف الأعمال السابقة في تعلم الخرائط، يستغل MapNet المدخلات الحسية الرخيصة والشائعة مثل المسافة البصرية ونظام تحديد المواقع العالمي بالإضافة إلى الصور ويقوم بدمجها معًا لتحديد موقع الكاميرا. يتم صياغة القيود الهندسية التي تعبر عنها هذه المدخلات - والتي كانت تقليديًا تستخدم في ضبط الحزمة أو تحسين الرسم البياني للوضع - كمصطلحات خسارة في تدريب MapNet واستخدامها أيضًا أثناء الاستدلال. بالإضافة إلى تحسين دقة التحديد مباشرةً، يتيح هذا لنا تحديث MapNet (أي الخرائط) بطريقة ذاتية الإشراف باستخدام سلاسل الفيديو غير المصنفة الإضافية من المشهد. كما نقترح أيضًا معلمة جديدة لدوران الكاميرا تكون أكثر ملاءمة للتقدير العميق للوضع. أظهرت النتائج التجريبية على مجموعة بيانات 7-Scenes الداخلية وعلى مجموعة بيانات Oxford RobotCar الخارجية تحسنًا كبيرًا في الأداء مقارنة بالأعمال السابقة. يمكن الوصول إلى صفحة الويب الخاصة بمشروع MapNet عبر الرابط: https://goo.gl/mRB3Au.