RCBEVDet: دمج الرادار والكاميرا في رؤية الطائر للكشف عن الأشياء ثلاثية الأبعاد

الكشف عن الأشياء ثلاثية الأبعاد هو أحد المهام الرئيسية في القيادة الذاتية. بهدف تقليل التكاليف في التطبيق العملي، تم اقتراح استخدام كاميرات متعددة الزوايا منخفضة التكلفة للكشف عن الأشياء ثلاثية الأبعاد كبديل للحساسات الباهظة الثمن مثل ليدار (LiDAR). ومع ذلك، فإن الاعتماد فقط على الكاميرات يصعب تحقيق نتائج دقيقة وثابتة للكشف عن الأشياء ثلاثية الأبعاد. حلاً فعالاً لهذه المشكلة هو دمج كاميرات متعددة الزوايا مع حساس الرادار بالموجات المليمترية ذات التكلفة المنخفضة لتحقيق الكشف المتعدد الوسائط عن الأشياء ثلاثية الأبعاد بشكل أكثر موثوقية.في هذا البحث، نقدم طريقة RCBEVDet، وهي طريقة دمج بين الرادار والكاميرا للكشف عن الأشياء ثلاثية الأبعاد في رؤية الطائر (BEV). تحديداً، قمنا بتصميم RadarBEVNet لاستخراج الخصائص ثلاثية الأبعاد من الرادار. يتكون RadarBEVNet من هيكل راداري ثنائي التيار ومحودث BEV يعيق الوعي بمساحة العرض العرضي للرادار (RCS). في الهيكل الراديوي الثنائي التيار، تم اقتراح محودث مستند إلى النقاط ومحودث مستند إلى المتحول (Transformer) لاستخراج خصائص الرادار، مع وجود وحدة حقن واستخراج تسهل التواصل بين المحودثين.يعمل المحودث BEV الذي يعيق الوعي بـ RCS على استخدام RCS كمقدمة لحجم الجسم عند تشتت خاصية النقطة في BEV. بالإضافة إلى ذلك، نقدم وحدة الاندماج متعددة الطبقات بالانتباه المتقاطع لتوفيق الخصائص المتعددة الوسائط من الرادار والكاميرا باستخدام آلية الانتباه القابل للتكيّف، ثم يتم دمج الخاصية باستخدام طبقات الاندماج القناة والمكان.تظهر نتائج التجارب أن RCBEVDet يحقق أفضل النتائج الحالية في دمج الرادار والكاميرا للكشف عن الأشياء ثلاثية الأبعاد على مقاييس الكشف nuScenes و view-of-delft (VoD). علاوة على ذلك، فإن RCBEVDet يحقق نتائج أفضل في الكشف ثلاثي الأبعاد مقارنة بكافة أجهزة الكشف التي تعتمد فقط على الكاميرا وأجهزة الكشف التي تدمج بين الرادار والكاميرا بمعدل استدلال أسرع يتراوح بين 21-28 إطارًا في الثانية. سيتم إطلاق الشفرة المصدر على الرابط: https://github.com/VDIGPKU/RCBEVDet.