Prédiction en temps réel de la pose 6D d'un objet unique sans couture

Nous proposons une approche en un seul passage pour détecter simultanément un objet dans une image RGB et prédire sa position 6D sans nécessiter plusieurs étapes ou l'examen de multiples hypothèses. Contrairement à une technique récemment proposée pour cette tâche (Kehl et al., ICCV'17) qui ne prédit qu'une position 6D approximative nécessitant ensuite un affinage, notre méthode est suffisamment précise pour ne pas requérir de traitement postérieur supplémentaire. En conséquence, elle est beaucoup plus rapide — 50 images par seconde sur une GPU Titan X (Pascal) — et mieux adaptée au traitement en temps réel. Le composant clé de notre méthode est une nouvelle architecture de CNN inspirée du design du réseau YOLO, qui prédit directement les positions 2D des sommets projetés de la boîte englobante 3D de l'objet. La position 6D de l'objet est ensuite estimée à l'aide d'un algorithme PnP.Pour l'estimation de la position d'un seul objet et de plusieurs objets sur les ensembles de données LINEMOD et OCCLUSION, notre approche surpasse considérablement les autres méthodes basées sur des CNN récentes lorsqu'elles sont toutes utilisées sans traitement postérieur. Lors du traitement postérieur, une étape d'affinage de la position peut être utilisée pour améliorer la précision des méthodes existantes, mais elles sont beaucoup plus lentes que notre méthode, avec une vitesse inférieure ou égale à 10 images par seconde.