Appariement stéréo centré sur les objets pour la détection d'objets 3D
La conduite autonome sécuritaire nécessite une détection d'objets 3D fiable, consistant à déterminer la posture à six degrés de liberté (6 DoF) et les dimensions des objets d'intérêt. L'utilisation de caméras stéréoscopiques pour résoudre cette tâche est une alternative rentable aux capteurs LiDAR largement utilisés. L'état actuel de l'art en matière de détection d'objets 3D stéréoscopique utilise le réseau de correspondance stéréoscopique PSMNet existant, sans modification, pour convertir les disparités estimées en un nuage de points 3D, puis alimente ce nuage de points dans un détecteur d'objets 3D basé sur LiDAR. Le problème avec les réseaux de correspondance stéréoscopique existants est qu'ils sont conçus pour l'estimation des disparités, pas pour la détection d'objets 3D ; la forme et la précision des nuages de points d'objets ne sont pas leur priorité. Les réseaux de correspondance stéréoscopique souffrent fréquemment d'estimations de profondeur inexactes aux frontières des objets, que nous définissons comme des artefacts linéaires (streaking), car les points du premier plan et du fond sont estimés conjointement. Les réseaux existants pénalisent également la disparité plutôt que la position estimée des nuages de points d'objets dans leurs fonctions de perte. Nous proposons une nouvelle méthode d'association de boîtes 2D et de correspondance stéréoscopique centrée sur l'objet qui n'estime que les disparités des objets d'intérêt pour remédier à ces deux problèmes. Notre méthode obtient des résultats à l'état de l'art sur les benchmarks KITTI 3D et BEV.