CRN: شبكة الكاميرا والرادار للاستشعار ثلاثي الأبعاد الدقيق والموثوق والفعال

القيادة الذاتية تتطلب نظامًا للكشف ثلاثي الأبعاد دقيقًا وسريعًا يشمل الكشف عن الأجسام ثلاثية الأبعاد، وتتبعها، وتقسيمها. رغم أن الأساليب الحديثة القائمة على الكاميرات ذات التكلفة المنخفضة قد أظهرت نتائجًا واعدةً، إلا أنها عرضة للإضاءة السيئة أو الظروف الجوية غير المثلى ولديها خطأ تحديد موقع كبير. لذلك، فإن دمج الكاميرا مع الرادار ذي التكلفة المنخفضة، الذي يوفر قياسًا طويل المدى بدقة ويؤدي عمله بشكل موثوق في جميع البيئات، يعد واعدًا ولكنه لم يتم دراسته بشكل كافٍ بعد. في هذا البحث، نقترح "شبكة الكاميرا والرادار" (Camera Radar Net - CRN)، إطار جديد لدمج الكاميرا والرادار يولد خريطة ميزات منظور الطائر (Bird's-Eye-View - BEV) غنية بالمعنى ومكانيًا دقيقة لمهام مختلفة. لتجاوز نقص المعلومات المكانية في الصورة، نحول ميزات الصورة من منظور الزاوية إلى منظور الطائر بمساعدة نقاط الرادار النادرة ولكن الدقيقة. كما نجمع بين خرائط ميزات الصورة والرادار في منظور الطائر باستخدام انتباه متعدد الأوضاع قابل للتشوه مصمم للتغلب على عدم التوافق المكاني بين المدخلات. تعمل شبكة CRN في وضع الوقت الحقيقي بمعدل 20 إطارًا في الثانية مع تحقيق أداء مparable مع أجهزة الكشف بالليدار (LiDAR) على مجموعة بيانات nuScenes، وحتى تتفوق على المسافة البعيدة في الإعداد 100 متر. بالإضافة إلى ذلك، تحقق شبكة CRN في الإعداد غير الفوري نسبة 62.4% من مؤشر جودة البيانات (NDS) ونسبة 57.5% من المتوسط الحسابي للمتوسط الدقة (mAP) على مجموعة اختبار nuScenes وتتصدر جميع أجهزة الكشف عن الأجسام ثلاثية الأبعاد القائمة على الكاميرا والكاميرا-الرادار.