MVFusion: كشف الكائنات ثلاثية الأبعاد متعددة المقاطع باستخدام دمج الرادار والكاميرا المتماشي دلاليًا

يُقدّم الكشف عن الكائنات ثلاثية الأبعاد المُدمج من خلال مُستشعرات الرادار والكاميرا من زوايا متعددة مدى كشف أبعد وأساليب مفيدة أكثر للقيادة الذاتية، خاصة في الظروف الجوية السيئة. تُقدّم الطرق الحالية لدمج الرادار والكاميرا تصميمات متنوعة لدمج معلومات الرادار مع بيانات الكاميرا. ومع ذلك، فإن هذه الطرق غالبًا ما تعتمد على عملية التسلسل المباشر بين السمات متعددة الوسائط، مما يتجاهل التوافق الدلالي مع سمات الرادار والارتباطات الكافية بين الوسائط المختلفة. في هذه الورقة، نقدّم MVFusion، وهي طريقة جديدة لدمج الرادار والكاميرا من زوايا متعددة، تهدف إلى تحقيق سمات رادار متماشية دلاليًا وتعزيز تفاعل المعلومات بين الوسائط المختلفة. لتحقيق ذلك، نُدخل التوافق الدلالي في سمات الرادار من خلال مُشفر الرادار المتماشي دلاليًا (SARE)، لإنتاج سمات رادار موجهة بالصورة. ثم نُقدّم مُحول دمج موجه بالرادار (RGFT)، لدمج سمات الرادار والصورة لدينا، بهدف تعزيز ارتباط الوسائط المختلفة من منظور شامل باستخدام آلية الانتباه المتقاطع. أظهرت التجارب الواسعة أن MVFusion تحقق أداءً يُعدّ الأفضل في مجاله (51.7% NDS و45.3% mAP) على مجموعة بيانات nuScenes. وسوف نُطلق كودنا وشبكات التدريب بعد النشر.