RCBEVDet++ : Vers une perception 3D de haute précision par fusion radar-caméra

La perception de l'environnement environnant est une tâche fondamentale dans la conduite autonome. Pour obtenir des résultats de perception hautement précis, les systèmes modernes de conduite autonome utilisent généralement des capteurs multimodaux pour collecter des données environnementales complètes. Parmi ceux-ci, le système de perception multimodal radar-caméra est particulièrement apprécié pour ses excellentes capacités de détection et son rapport qualité-prix avantageux. Cependant, les différences modales substantielles entre les capteurs radar et caméra posent des défis dans la fusion d'informations. Pour résoudre ce problème, cet article présente RCBEVDet, un cadre de détection d'objets 3D par fusion radar-caméra. Plus précisément, RCBEVDet est développé à partir d'un détecteur d'objets 3D basé sur la caméra existant, complété par un extracteur de caractéristiques radar spécialement conçu, RadarBEVNet, et un module de fusion multicouche avec attention croisée (CAMF). Tout d'abord, RadarBEVNet encode les points radar épars en une caractéristique dense vue du dessus (BEV) en utilisant une architecture radar à double flux et un encodeur BEV sensible à la section efficace du radar (Radar Cross Section). Ensuite, le module CAMF utilise un mécanisme d'attention déformable pour aligner les caractéristiques BEV radar et caméra et adopte des couches de fusion spatiale et canalique pour les fusionner. Pour améliorer encore les capacités de RCBEVDet, nous introduisons RCBEVDet++, qui perfectionne le CAMF grâce à la fusion éparsa, prend en charge les modèles de perception multicaméra basés sur des requêtes et s'adapte à une gamme plus large de tâches de perception. Des expériences approfondies sur nuScenes montrent que notre méthode s'intègre parfaitement aux modèles existants de perception 3D basés sur la caméra et améliore leurs performances dans diverses tâches de perception. De plus, notre méthode atteint des résultats d'avant-garde en matière de fusion radar-caméra dans les tâches de détection d'objets 3D, de segmentation sémantique BEV et de suivi multi-objets 3D. Il convient notamment de souligner que, avec ViT-L comme backbone d'image, RCBEVDet++ obtient 72,73 NDS et 67,34 mAP en détection d'objets 3D sans augmentation ou assemblage du modèle lors des tests.