CenterFusion: دمج الرادار والكاميرا القائم على المركز للكشف عن الكائنات الثلاثية الأبعاد

يُعَتَبَرُ نظام الإدراك في المركبات ذاتية القيادة مسؤولًا عن اكتشاف وتتبع الأجسام المحيطة. وعادةً ما يتم ذلك من خلال الاستفادة من عدة أنماط استشعار لتعزيز الموثوقية والدقة، مما يجعل دمج الحساسات جزءًا حاسمًا من نظام الإدراك. في هذه الورقة، نركز على مشكلة دمج حساسات الرادار والكاميرا، ونُقدِّم نهجًا يُسمى "الدمج المتوسط" للاستفادة من بيانات الرادار والكاميرا معًا في كشف الأجسام الثلاثية الأبعاد. يُسمَّى نهجنا CenterFusion، حيث يبدأ باستخدام شبكة كشف النقاط المركزية للكشف عن الأجسام من خلال تحديد نقاطها المركزية في الصورة. ثم يحل المشكلة الأساسية في تطابق البيانات باستخدام طريقة مبتكرة تعتمد على الفرستوم (frustum) لربط كشفات الرادار بمركز الجسم المقابل لها. وتُستخدم كشفات الرادار المرتبطة لتكوين خرائط ميزات قائمة على الرادار لتعزيز ميزات الصورة، والانحدار نحو خصائص الجسم مثل العمق والدوران والسرعة. وقد قُمنا بتقييم CenterFusion على مجموعة بيانات nuScenes الصعبة، حيث أدى إلى تحسين مجموع نتائج كشف nuScenes (NDS) للخوارزمية الرائدة القائمة على الكاميرا بنسبة تزيد عن 12٪. كما أظهرنا أن CenterFusion يُحسِّن بشكل كبير دقة تقدير السرعة دون الحاجة إلى أي معلومات زمنية إضافية. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/mrnabati/CenterFusion.