RCBEVDet++: نحو تحقيق دقة عالية في التكامل ثلاثي الأبعاد بين الرادار والكاميرا

إدراك البيئة المحيطة هو مهمة أساسية في القيادة الذاتية. للحصول على نتائج إدراك دقيقة للغاية، تستخدم الأنظمة الحديثة للقيادة الذاتية عادةً أجهزة استشعار متعددة الأوضاع لجمع بيانات بيئية شاملة. من بين هذه الأجهزة، يحظى نظام الإدراك المتعدد الأوضاع الرادار-الكاميرا بتفضيل خاص بسبب قدراته الاستشعارية الممتازة وفعاليته من حيث التكلفة. ومع ذلك، فإن الاختلافات الكبيرة في الأوضاع بين أجهزة الرادار والكاميرا تشكل تحديات في دمج المعلومات. لمعالجة هذه المشكلة، يقدم هذا البحث إطار RCBEVDet، وهو إطار لدمج الرادار والكاميرا لاكتشاف الأجسام ثلاثية الأبعاد. بشكل محدد، تم تطوير RCBEVDet من كاشف الأجسام ثلاثية الأبعاد القائم على الكاميرا الموجود مسبقًا، مع إضافة مستخرج خصائص الرادار المصمم خصيصًا، RadarBEVNet، ووحدة دمج متعدد الطبقات بالانتباه المتقاطع (CAMF). أولاً، يقوم RadarBEVNet بترميز نقاط الرادار النادرة إلى خاصية رؤية الطائر الكثيفة (BEV) باستخدام هيكل راداري ثنائي التيار ومُرمِّز رؤية الطائر الواعي بمساحة العرض الشعاعي للرادار (Radar Cross Section). ثانيًا، يستخدم وحدة CAMF آلية انتباه قابلة للتكييف لتوحيد خواص رؤية الطائر من الرادار والكاميرا ويعتمد طبقات دمج القنوات والموقع لدمجها. لتعزيز قدرات RCBEVDet بشكل أكبر، نقدم RCBEVDet++، الذي يطور CAMF عبر الدمج النادر ويدعم نماذج الإدراك المتعددة الآراء القائمة على الاستعلامات ويتكيف مع نطاق أوسع من مهام الإدراك. أظهرت التجارب الواسعة على nuScenes أن طريقتنا تتكامل بسلاسة مع نماذج الإدراك ثلاثية الأبعاد القائمة على الكاميرا الموجودة مسبقًا وتحسن أدائها في مجموعة متنوعة من مهام الإدراك. بالإضافة إلى ذلك، حققت طريقتنا أفضل النتائج الحالية في دمج الرادار والكاميرا لاكتشاف الأجسام ثلاثية الأبعاد وتقسيم المعاني في رؤية الطائر ومهام تتبع الأجسام المتعددة ثلاثي الأبعاد. ومن الجدير بالذكر أن RCBEVDet++ باستخدام ViT-L كهيكل الصورة يحقق 72.73 NDS و67.34 mAP في اكتشاف الأجسام ثلاثية الأبعاد دون زيادة الاختبار أو الجمع بين النماذج.注释:- "Radar Cross Section" 翻译为 "مساحة العرض الشعاعي للرادار",这是雷达领域的专业术语。- "nuScenes" 是一个数据集的名称,直接保留英文。- "NDS" 和 "mAP" 是评估指标的缩写,直接保留英文。