GS3D : Un Cadre Efficace pour la Détection d'Objets 3D dans le Contexte de la Conduite Autonome

Nous présentons un cadre efficace de détection d'objets 3D basé sur une seule image RGB dans le contexte de la conduite autonome. Nos efforts sont axés sur l'extraction des informations 3D sous-jacentes dans une image 2D et la détermination de la boîte englobante 3D précise de l'objet sans utiliser de nuage de points ou de données stéréoscopiques. En nous appuyant sur un détecteur d'objets 2D prêt à l'emploi, nous proposons une approche astucieuse pour obtenir efficacement un cuboïde grossier pour chaque boîte englobante 2D prédite. Ce cuboïde grossier est suffisamment précis pour nous guider vers la détermination de la boîte englobante 3D de l'objet par raffinement. Contrairement aux méthodes les plus avancées précédentes qui n'utilisent que les caractéristiques extraites de la boîte englobante 2D pour le raffinement, nous explorons les informations structurelles 3D de l'objet en utilisant les caractéristiques visuelles des surfaces visibles. Les nouvelles caractéristiques issues des surfaces sont utilisées pour éliminer le problème d'ambiguïté de représentation lié à l'utilisation exclusive d'une boîte englobante 2D. De plus, nous examinons différentes méthodes de raffinement de la boîte englobante 3D et découvrons qu'une formulation par classification avec une perte sensible à la qualité offre des performances bien meilleures que la régression. Évaluée sur le banc d'essai KITTI, notre approche surpasses les méthodes actuelles les plus avancées pour la détection d'objets 3D basée sur une seule image RGB.