Estimation de la boîte englobante 3D à l'aide de l'apprentissage profond et de la géométrie

Nous présentons une méthode pour la détection d'objets 3D et l'estimation de leur pose à partir d'une seule image. Contrairement aux techniques actuelles qui ne régressent que l'orientation 3D d'un objet, notre méthode commence par régresser des propriétés 3D stables de l'objet en utilisant un réseau neuronal convolutif profond, puis combine ces estimations avec les contraintes géométriques fournies par une boîte englobante 2D de l'objet pour produire une boîte englobante 3D complète. La première sortie du réseau estime l'orientation 3D de l'objet en utilisant une nouvelle perte hybride discrète-continue, qui surpasse considérablement la perte L2. La deuxième sortie régresse les dimensions 3D de l'objet, qui présentent une variance relativement faible par rapport aux alternatives et peuvent souvent être prédites pour de nombreux types d'objets. Ces estimations, combinées avec les contraintes géométriques de translation imposées par la boîte englobante 2D, nous permettent de récupérer une pose 3D stable et précise de l'objet. Nous évaluons notre méthode sur le banc d'essai difficile KITTI pour la détection d'objets, tant sur la métrique officielle d'estimation de l'orientation 3D que sur la précision des boîtes englobantes 3D obtenues. Bien que conceptuellement simple, notre méthode surpasse des approches plus complexes et coûteuses en termes de calcul qui s'appuient sur la segmentation sémantique, la segmentation au niveau des instances et les hypothèses relatives à un sol plat ainsi que la détection de sous-catégories. Notre perte discrète-continue produit également des résultats de pointe pour l'estimation des points de vue 3D sur le jeu de données Pascal 3D+.