MonoUNI : Un réseau de détection d'objets 3D monoculaire unifié pour les véhicules et les infrastructures côté, offrant des indices de profondeur suffisants

La détection 3D monocular des véhicules et des infrastructures constitue deux sujets essentiels dans le domaine de la conduite autonome. En raison de la diversité des installations de capteurs et des distances focales, les chercheurs sont confrontés au défi de concevoir des algorithmes pour ces deux domaines en s’appuyant sur des connaissances a priori différentes. Dans cet article, en tenant compte de la diversité des angles de tangage et des distances focales, nous proposons un objectif d’optimisation unifié appelé « profondeur normalisée », qui permet d’unifier les problèmes de détection 3D pour les deux aspects. Par ailleurs, afin d’améliorer la précision de la détection 3D monocular, nous introduisons une nouvelle notion, la « profondeur normalisée en cube 3D » des obstacles, afin de renforcer l’apprentissage des informations de profondeur. Nous soutenons que la richesse des indices de profondeur constitue un facteur déterminant pour la performance de détection, tant du côté véhicule que du côté infrastructure. Un ensemble plus riche d’indices de profondeur permet au modèle d’apprendre une connaissance spatiale plus fine, et la profondeur normalisée en cube 3D fournit justement des indices de profondeur suffisamment riches. Des expériences étendues démontrent l’efficacité de notre approche. Sans introduire aucune information supplémentaire, notre méthode, nommée MonoUNI, atteint des performances de pointe sur cinq benchmarks largement utilisés pour la détection 3D monocular, incluant Rope3D et DAIR-V2X-I pour le côté infrastructure, KITTI et Waymo pour le côté véhicule, ainsi que nuScenes pour l’évaluation inter-datasets.