Pseudo-Stéréo pour la détection 3D d'objets monoculaire en conduite autonome

Les détecteurs 3D pseudo-LiDAR ont réalisé des progrès remarquables dans la détection 3D monoculaire en améliorant la capacité de perception de la profondeur grâce à des réseaux d’estimation de profondeur et en s’appuyant sur des architectures de détection 3D inspirées du LiDAR. Les détecteurs stéréo avancés peuvent également localiser avec précision les objets en 3D. L’écart entre les générations d’images stéréo est bien moindre que celui entre les générations d’images et de nuages de points LiDAR. Inspirés par cette observation, nous proposons un cadre de détection 3D pseudo-stéréo basé sur trois nouvelles méthodes de génération de vues virtuelles : la génération au niveau de l’image, la génération au niveau des caractéristiques, et la méthode de clonage de caractéristiques, permettant ainsi la détection d’objets 3D à partir d’une seule image. Notre analyse de l’apprentissage sensible à la profondeur montre que la perte de profondeur est efficace uniquement dans la génération de vue virtuelle au niveau des caractéristiques, tandis que la carte de profondeur estimée s’avère utile à la fois dans les générations au niveau de l’image et au niveau des caractéristiques dans notre cadre. Nous introduisons une convolution dynamique par disparité, dont les noyaux dynamiques sont échantillonnés à partir de la carte de caractéristiques de disparité, afin de filtrer de manière adaptative les caractéristiques issues d’une seule image pour générer des caractéristiques d’image virtuelle, ce qui atténue la dégradation des caractéristiques due aux erreurs d’estimation de profondeur. Jusqu’à la date de soumission (18 novembre 2021), notre cadre de détection 3D pseudo-stéréo occupe la première place sur le benchmark KITTI-3D pour les voitures, piétons et cyclistes parmi les détecteurs 3D monoculaires publiés. Le code source est disponible à l’adresse suivante : https://github.com/revisitq/Pseudo-Stereo-3D.