Décomposition de distance basée sur la géométrie pour la détection 3D monocale d'objets

La détection monocular 3D d'objets revêt une importance capitale pour les véhicules autonomes, mais demeure un défi majeur. Le défi central réside dans la prédiction de la distance des objets en l'absence d'informations explicites sur la profondeur. Contrairement aux méthodes existantes qui modélisent la distance comme une seule variable à prédire, nous proposons une nouvelle approche fondée sur la géométrie, basée sur une décomposition de la distance en ses facteurs constitutifs. Cette décomposition décompose la distance des objets en deux variables les plus représentatives et stables : la hauteur physique de l'objet et sa hauteur projetée dans le plan de l'image. En outre, cette décomposition préserve une cohérence interne entre ces deux hauteurs, ce qui permet une prédiction robuste de la distance même lorsque les deux hauteurs prédites sont imparfaites. Elle permet également d'identifier les causes de l'incertitude dans la prédiction de la distance selon les scénarios. Grâce à cette décomposition, la prédiction de distance devient interprétable, précise et robuste. Notre méthode prédit directement des boîtes englobantes 3D à partir d'images RGB, grâce à une architecture compacte, ce qui rend l'entraînement et l'inférence simples et efficaces. Les résultats expérimentaux montrent que notre méthode atteint l'état de l'art sur les tâches de détection 3D monocular et de vue en plan (Birds Eye View) sur le jeu de données KITTI, et se généralise efficacement à des images issues de caméras avec des paramètres intrinsèques différents.