RCM-Fusion : Fusion multi-niveaux radar-caméra pour la détection d'objets 3D

Bien que les capteurs LiDAR aient été efficacement appliqués à la détection d'objets 3D, la rentabilité des capteurs radar et caméra a suscité un intérêt croissant pour la fusion de ces deux capteurs afin de réaliser la détection d'objets 3D. Toutefois, les modèles précédents de fusion radar-caméra n'ont pas pu exploiter pleinement le potentiel des informations radar. Dans cet article, nous proposons RCM-Fusion, une méthode de fusion multi-niveaux radar-caméra, qui vise à intégrer les deux modalités à la fois au niveau des caractéristiques et au niveau des instances. Pour la fusion au niveau des caractéristiques, nous introduisons un encodeur BEV guidé par le radar, qui transforme les caractéristiques caméra en représentations BEV précises grâce à l'orientation fournie par les caractéristiques BEV radar, tout en combinant les caractéristiques BEV radar et caméra. Pour la fusion au niveau des instances, nous proposons un module de raffinement des points de grille radar, qui réduit l'erreur de localisation en tenant compte des caractéristiques des nuages de points radar. Les expérimentations menées sur le jeu de données public nuScenes démontrent que notre méthode RCM-Fusion atteint des performances de pointe parmi les méthodes de fusion radar-caméra basées sur une seule trame dans le benchmark de détection d'objets 3D nuScenes. Le code source sera rendu disponible publiquement.