MinkLoc++: دمج الليدار والصورة الأحادية للتمييز بين الأماكن

نقدم وصفًا متعدد الوسائط تمييزيًا يعتمد على قراءة زوج من الأجهزة الاستشعارية: سحابة نقاط من ليدار (LiDAR) وصورة من كاميرا RGB. يمكن استخدام وصفنا، الذي أطلق عليه اسم MinkLoc++، لأغراض التعرف على المكان وإعادة التموضع وإغلاق الحلقة في تطبيقات الروبوتات أو المركبات ذاتية القيادة. نستخدم نهج الاندماج المتأخر، حيث يتم معالجة كل وسيلة بشكل منفصل ويتم دمجها في الجزء النهائي من خط أنابيب المعالجة. يحقق الطريقة المقترحة أداءً متفوقًا على مقاييس التعرف على المكان القياسية. كما نحدد مشكلة الوسيلة المهيمنة عند تدريب وصف متعدد الوسائط. تظهر هذه المشكلة عندما يركز الشبكة العصبية على وسيلة لديها ارتباط أكبر بالبيانات التدريبية. هذا يؤدي إلى خفض الخسارة أثناء التدريب ولكنه يؤدي إلى أداء غير مثالي على مجموعة الاختبار. في هذا العمل، نصف كيفية الكشف عن وتخفيف مثل هذا الخطر عند استخدام نهج التعلم العميق للمقاييس لتدريب شبكة عصبية متعددة الوسائط. رمزنا البرمجي متاح للعامة على موقع المشروع: https://github.com/jac99/MinkLocMultimodal.