RCM-Fusion: دمج متعدد المستويات بين الرادار والكاميرا للكشف عن الأجسام ثلاثية الأبعاد

بينما تم تطبيق أجهزة استشعار ليدار بنجاح في كشف الأجسام ثلاثية الأبعاد، أدى التكلفة المنخفضة لأجهزة الاستشعار الرادارية والكاميرات إلى ازدياد الاهتمام بدمج الرادار والكاميرات للكشف عن الأجسام ثلاثية الأبعاد. ومع ذلك، لم تتمكن النماذج السابقة للدمج بين الرادار والكاميرا من استغلال الإمكانات الكاملة للمعلومات الرادارية. في هذا البحث، نقترح نموذجًا يُسمى RCM-Fusion (الدمج متعدد المستويات بين الرادار والكاميرا)، والذي يسعى إلى دمج هاتين الوسائط على كل من المستوى المميز (feature level) والمُستوى الفعلي (instance level). أما على المستوى المميز، فيُقترح لدينا "مشغل BEV الموجه بالرادار"، الذي يحول السمات المرئية إلى تمثيلات دقيقة في مساحة الرؤية من الأعلى (Bird's-Eye-View - BEV) باستخدام توجيه من سمات الرادار في نفس المساحة، ثم يدمج السمات الرادارية والمرئية في مساحة BEV. أما على المستوى الفعلي، فيُقترح لدينا وحدة "تحسين نقاط الشبكة الرادارية"، التي تقلل من خطأ التموضع من خلال أخذ خصائص سحابات النقاط الرادارية بعين الاعتبار. أظهرت التجارب التي أُجريت على مجموعة بيانات nuScenes العامة أن نموذج RCM-Fusion المُقترح يحقق أفضل الأداء بين الطرق الأحادية الإطار التي تعتمد على دمج الرادار والكاميرا في معيار كشف الأجسام ثلاثية الأبعاد الخاص بـ nuScenes. وسيتم إتاحة الكود المصدر بشكل عام.