Détection d'objets 3D pilotée par 2D dans les images RGB-D

Dans cet article, nous présentons une technique permettant de placer des boîtes englobantes 3D autour d'objets dans une scène RGB-D. Notre approche exploite au mieux les informations 2D afin de réduire rapidement l'espace de recherche en 3D, tout en tirant parti des techniques d'identification d'objets 2D les plus avancées. Nous utilisons ensuite les informations 3D pour orienter, positionner et évaluer les boîtes englobantes autour des objets. L'orientation de chaque objet est estimée indépendamment, en s'appuyant sur des méthodes antérieures qui exploitent les informations de normales. Les positions et les dimensions des objets en 3D sont apprises à l’aide d’un perceptron multicouche (MLP). À l’étape finale, nous affinons nos détections en tenant compte des relations entre les classes d’objets présentes dans la scène. En comparaison avec les méthodes d’état de l’art qui opèrent presque entièrement dans le domaine 3D épars, des expériences étendues sur le célèbre jeu de données SUN RGB-D montrent que notre méthode proposée est nettement plus rapide (4,1 seconde par image) pour la détection d’objets 3D dans les images RGB-D, tout en obtenant de meilleurs résultats (3 points de mAP supplémentaires) que la méthode d’état de l’art la plus lente (4,7 fois plus lente), et une performance comparable à celle d’une méthode deux ordres de grandeur plus lente. Ce travail suggère que la détection d’objets 2D pilotée en 3D mérite d’être davantage explorée, notamment dans les cas où l’entrée 3D est éparsse.