Détection d'objets 3D et segmentation d'instances à partir d'images de portée 3D et d'images couleur 2D
La segmentation d’instances et la détection d’objets constituent des problèmes majeurs dans les domaines de la vision par ordinateur et de la robotique. Nous abordons ces défis en proposant un nouveau système de segmentation et de détection d’objets. Tout d’abord, nous détectons des objets en 2D à partir d’images RGB, d’images de profondeur uniquement, ou d’images RGB-D. Nous introduisons un système basé sur une convolution 3D, nommé Frustum VoxNet. Ce système génère des frustes à partir des résultats de détection 2D, propose des images voxelisées candidates en 3D pour chaque fruste, puis utilise un réseau neuronal convolutif 3D (CNN) basé sur ces images voxelisées candidates afin d’effectuer la segmentation d’instances en 3D et la détection d’objets en 3D. Les résultats obtenus sur le jeu de données SUN RGB-D montrent que notre système basé sur RGB-D réalise des inférences en 3D bien plus rapides que les méthodes de pointe, sans perte significative de précision. Par ailleurs, nous pouvons également fournir des résultats de segmentation et de détection à partir d’images de profondeur uniquement, avec une précision comparable à celle des systèmes basés sur RGB-D. Ceci est particulièrement important, car nos méthodes fonctionnent également efficacement dans des conditions d’éclairage faible ou avec des capteurs ne capturant pas d’images RGB. Enfin, l’intégration de la segmentation dans notre chaîne de traitement améliore la précision de détection tout en offrant simultanément une segmentation d’instances en 3D.