RCBEVDet : Fusion radar-caméra en vue d'oiseau pour la détection d'objets 3D

La détection d'objets tridimensionnels est l'une des tâches clés dans la conduite autonome. Pour réduire les coûts en pratique, des caméras multi-vues à faible coût sont proposées pour remplacer les capteurs LiDAR coûteux. Cependant, se fier uniquement aux caméras rend difficile l'obtention d'une détection d'objets 3D précise et robuste. Une solution efficace à ce problème consiste à combiner des caméras multi-vues avec un capteur radar à onde millimétrique économique pour réaliser une détection d'objets 3D multimodale plus fiable. Dans cet article, nous présentons RCBEVDet, une méthode de fusion radar-caméra pour la détection d'objets 3D en vue oiseau (BEV). Plus précisément, nous concevons tout d'abord RadarBEVNet pour l'extraction de caractéristiques BEV du radar. RadarBEVNet comprend un squelette radar à double flux et un encodeur BEV sensible au Rapport de Section Électrique (RCS). Dans le squelette radar à double flux, un encodeur basé sur les points et un encodeur basé sur les transformateurs sont proposés pour extraire les caractéristiques du radar, avec un module d'injection et d'extraction facilitant la communication entre les deux encodeurs. L'encodeur BEV sensible au RCS utilise le RCS comme priorité de taille des objets lors de la dispersion des caractéristiques ponctuelles en BEV. De plus, nous introduisons le module de Fusion Multicouche par Attention Croisée pour aligner automatiquement les caractéristiques BEV multimodales issues du radar et de la caméra grâce au mécanisme d'attention déformable, puis fusionner ces caractéristiques avec des couches de fusion spatiale et canalique. Les résultats expérimentaux montrent que RCBEVDet atteint de nouveaux résultats de pointe en matière de fusion radar-caméra sur les bancs d'essai de détection d'objets 3D nuScenes et view-of-delft (VoD). De plus, RCBEVDet obtient des résultats de détection 3D supérieurs à ceux de tous les détecteurs d'objets 3D en temps réel basés uniquement sur la caméra et ceux combinant radar et caméra, avec une vitesse d'inférence plus rapide oscillant entre 21 et 28 images par seconde (FPS). Le code source sera mis à disposition sur https://github.com/VDIGPKU/RCBEVDet.