CoordiNet: مُعدِّل توجيه مُدرَك للشك، لتحديد موضع المركبة بشكل موثوق

في هذه الورقة، نستعرض إعادة تحديد موقع الكاميرا القائمة على الرؤية باستخدام الشبكات العصبية للتطبيقات المتعلقة بالروبوتات والمركبات ذاتية القيادة. يعتمد حلنا على خوارزمية تعتمد على الشبكات العصبية التلافيفية (CNN) وتتنبأ بموضع الكاميرا (الانتقال ثلاثي الأبعاد والدوران ثلاثي الأبعاد) مباشرةً من صورة واحدة. كما توفر تقديرًا لدرجة عدم اليقين في الموضع. ويتم تعلم الموضع ودرجة عدم اليقين معًا باستخدام دالة خسارة واحدة، ويتم دمجهما في وقت الاختبار باستخدام مُعَدِّل التقدير التكاملي (EKF). بالإضافة إلى ذلك، نقترح بنية جديدة بالكامل مبنية على التلافيف، تُسمى CoordiNet، صُممت لدمج بعض عناصر الهندسة المكانية في المشهد. وقد أظهرت إطار عملنا تفوقًا على الطرق المماثلة في أضخم مجموعة معايير متاحة، وهي مجموعة بيانات Oxford RobotCar، حيث بلغ متوسط الخطأ 8 أمتار، مقارنةً بالحد الأدنى السابق البالغ 19 مترًا. كما قمنا بدراسة أداء طريقة التحليل لدينا في المشاهد الكبيرة لتطبيقات تحديد المواقع في الوقت الفعلي (18 إطارًا في الثانية) للمركبات. وفي هذا السياق، تتطلب الطرق القائمة على البنية قاعدة بيانات كبيرة، ونُظهر أن اقتراحنا يُعد بديلًا موثوقًا، حيث حقق خطأً متوسطًا قدره 29 سنتيمترًا في دورة بطول 1.9 كيلومتر داخل منطقة حضرية مزدحمة.