BEV-LaneDet : une ligne de base simple et efficace pour la détection de voies en 3D

La détection de voies en 3D, qui joue un rôle crucial dans la planification des itinéraires des véhicules, est récemment devenue un sujet de recherche en développement rapide dans le domaine de la conduite autonome. Les travaux précédents ont rencontré des difficultés en termes de praticité en raison de leurs transformations spatiales complexes et de leurs représentations rigides des voies en 3D. Face à ces problèmes, notre travail propose une méthode efficace et robuste de détection de voies en 3D à partir d'une seule caméra, appelée BEV-LaneDet, avec trois contributions principales. Premièrement, nous introduisons la Caméra Virtuelle qui unifie les paramètres intrinsèques et extrinsèques des caméras montées sur différents véhicules pour garantir la cohérence des relations spatiales entre les caméras. Cette approche peut efficacement promouvoir la procédure d'apprentissage grâce à l'espace visuel unifié.Deuxièmement, nous proposons une représentation simple mais efficace des voies en 3D appelée Représentation par Points Clés (Key-Points Representation). Ce module est plus adapté pour représenter les structures complexes et variées des voies en 3D.Enfin, nous présentons un module de transformation spatiale léger et compatible avec les puces nommé Pyramide de Transformation Spatiale (Spatial Transformation Pyramid) pour transformer les caractéristiques frontales multiscalaires en caractéristiques BEV (Bird's Eye View).Les résultats expérimentaux montrent que notre travail surpasse les approches actuelles en termes de F-Score, étant supérieur de 10,6 % sur le jeu de données OpenLane et de 5,9 % sur le jeu de données synthétique Apollo 3D, tout en atteignant une vitesse de 185 images par seconde. Le code source sera publié sur https://github.com/gigo-team/bev_lane_det.