Détection d'objets 3D à partir d'images monochromatiques par fusion multi-niveaux

Dans cet article, nous présentons un cadre fondé sur l'apprentissage profond, entièrement end-to-end, pour la détection d'objets 3D à partir d'une seule image monochrome. Nous introduisons un réseau neuronal convolutif profond capable de réaliser simultanément la détection 2D et 3D. Tout d'abord, des propositions de régions 2D sont générées via un réseau de propositions de régions. Ensuite, des caractéristiques partagées sont apprises à l'intérieur de ces propositions afin de prédire la probabilité de classe, la boîte englobante 2D, l'orientation, les dimensions et la position 3D. Nous utilisons un module indépendant pour prédire la disparité et extraire des caractéristiques à partir du nuage de points calculé. Ainsi, les caractéristiques provenant de l'image d'origine et du nuage de points sont fusionnées à différents niveaux afin d'assurer une localisation 3D précise. La disparité estimée est également utilisée pour une encodage des caractéristiques en vue avant, améliorant ainsi l'image d'entrée, ce processus étant considéré comme une fusion en entrée. L'algorithme proposé permet de produire directement, de manière end-to-end, à partir d'une seule image RGB, à la fois les résultats de détection 2D et 3D. Les résultats expérimentaux sur le défi KITTI démontrent que notre méthode surpasse significativement les états de l'art existants, même lorsqu'elle n'utilise que des images monochromes.