Réseau d'Apprentissage par Triangulation : de la Détection Monoœil à la Détection Stéréoscopique d'Objets 3D

Dans cet article, nous étudions le problème de détection d'objets 3D à partir d'images stéréoscopiques, où le défi principal réside dans l'utilisation efficace des informations stéréoscopiques. Contrairement aux méthodes précédentes qui utilisent des cartes de profondeur au niveau des pixels, nous proposons d'employer des ancres 3D pour construire explicitement des correspondances au niveau objet entre les régions d'intérêt dans les images stéréoscopiques, à partir desquelles le réseau neuronal profond apprend à détecter et à trianguler l'objet cible dans l'espace 3D. Nous introduisons également une stratégie de réaffectation de canaux coûteuse en ressources mais efficace, qui améliore les caractéristiques représentatives et affaiblit les signaux bruyants afin de faciliter le processus d'apprentissage. Tous ces éléments sont intégrés de manière flexible dans un détecteur de base solide qui utilise des images monoculaires. Nous démontrons que tant le détecteur de base monoculaire que le réseau d'apprentissage de la triangulation stéréoscopique surpassent les méthodes antérieures en termes de détection et de localisation d'objets 3D sur l'ensemble de données KITTI, connu pour sa difficulté.Note : - "Monocular" est traduit par "monoculaire", terme couramment utilisé en français pour désigner une image ou une caméra à un seul œil.- "Stereo" est traduit par "stéréoscopique", qui est le terme standard en français pour désigner les systèmes utilisant deux vues ou plus.- "KITTI dataset" est conservé tel quel car il s'agit du nom propre d'un ensemble de données largement reconnu dans la communauté scientifique.