BEVHeight : Un cadre robuste pour la détection 3D d'objets routiers basée sur la vision

Alors que la plupart des systèmes récents de conduite autonome se concentrent sur le développement de méthodes de perception basées sur les capteurs embarqués du véhicule, on tend à négliger une approche alternative consistant à exploiter des caméras intelligentes installées au bord de la route afin d’étendre la portée de la perception au-delà de la portée visuelle. Nous constatons que les méthodes de détection en vue de dessus (bird’s eye view) centrées sur la vision, actuellement les plus avancées, présentent des performances médiocres lorsqu’elles sont appliquées aux caméras de bord de route. Cela s’explique par le fait que ces méthodes se concentrent principalement sur la reconstruction de la profondeur par rapport au centre de la caméra, où la différence de profondeur entre le véhicule et le sol diminue rapidement avec la distance. Dans cet article, nous proposons une approche simple mais efficace, nommée BEVHeight, pour résoudre ce problème. En essence, au lieu de prédire la profondeur au niveau de chaque pixel, nous estimons la hauteur par rapport au sol, ce qui permet d’obtenir une formulation indépendante de la distance, facilitant ainsi le processus d’optimisation des méthodes de perception basées uniquement sur la caméra. Sur des benchmarks populaires de détection 3D utilisant des caméras de bord de route, notre méthode dépasse de manière significative toutes les méthodes précédentes centrées sur la vision. Le code source est disponible à l’adresse {\url{https://github.com/ADLab-AutoDrive/BEVHeight}}.