Détection monulaire d'objets 3D utilisant des propositions précises et la reconstruction de forme

Nous présentons MonoPSR, une méthode de détection d'objets 3D monoculaire qui utilise des propositions et la reconstruction de forme. Tout d'abord, en utilisant les relations fondamentales du modèle de caméra à trou de serrure, les détections issues d'un détecteur d'objets 2D mature sont utilisées pour générer une proposition 3D par objet dans une scène. La position 3D de ces propositions s'avère être très précise, ce qui réduit considérablement la difficulté de la régression de la détection finale de la boîte englobante 3D. En parallèle, un nuage de points est prédit dans un système de coordonnées centré sur l'objet pour apprendre les informations locales d'échelle et de forme. Cependant, le défi majeur consiste à exploiter les informations de forme pour guider la localisation 3D. Ainsi, nous avons conçu des pertes agrégées, y compris une nouvelle perte d'alignement de projection, pour optimiser conjointement ces tâches dans le réseau neuronal afin d'améliorer la précision de la localisation 3D. Nous validons notre méthode sur le banc d'essai KITTI où nous établissons de nouveaux résultats d'état de l'art parmi les méthodes monoculaires publiées, y compris pour les classes plus difficiles des piétons et des cyclistes, tout en maintenant un temps d'exécution efficace.