Apprentissage de la profondeur guidée par la géométrie via une modélisation projective pour la détection 3D d'objets monoculaire

En tant que tâche cruciale de la conduite autonome, la détection d'objets 3D a connu des progrès considérables ces dernières années. Toutefois, la détection d'objets 3D à partir d'une seule caméra reste un problème difficile en raison de la performance insatisfaisante en estimation de profondeur. La plupart des méthodes monoculars existantes estiment directement la profondeur de la scène tout en ignorant les relations importantes entre la profondeur et divers éléments géométriques (par exemple, les tailles des boîtes englobantes, les dimensions 3D des objets et les poses des objets). Dans cet article, nous proposons d’apprendre une estimation de profondeur guidée par la géométrie grâce à une modélisation projective afin d’améliorer la détection d’objets 3D monoculars. Plus précisément, nous avons conçu une formule géométrique fondée sur des principes rigoureux, intégrant une modélisation projective des prédictions de profondeur 2D et 3D au sein du réseau de détection d’objets 3D monoculars. Nous avons également mis en œuvre et intégré cette formule pour permettre un apprentissage profond conscient de la géométrie, favorisant ainsi des interactions efficaces entre les représentations 2D et 3D afin d’améliorer l’estimation de profondeur. En outre, nous proposons une base solide en résolvant un important désalignement entre les annotations 2D et les boîtes projetées, garantissant ainsi une apprentissage robuste avec la formule géométrique proposée. Les expériences sur le jeu de données KITTI montrent que notre méthode améliore significativement les performances de détection de la méthode de pointe basée sur une seule caméra, sans nécessiter de données supplémentaires, de 2,80 % sur le paramètre de test modéré. Le modèle et le code seront publiés à l’adresse suivante : https://github.com/YinminZhang/MonoGeo.