DPOD : Détecteur et Affineur de Pose d'Objet en 6D

Dans cet article, nous présentons une nouvelle méthode d'apprentissage profond pour la détection d'objets 3D et l'estimation de pose 6D à partir d'images RGB. Notre méthode, nommée DPOD (Dense Pose Object Detector), estime des cartes de correspondance dense multi-classe 2D-3D entre une image d'entrée et des modèles 3D disponibles. À partir de ces correspondances, une pose 6DoF est calculée par le biais de l'algorithme PnP (Perspective-n-Point) et RANSAC (RANdom SAmple Consensus). Une étape supplémentaire de raffinement de la pose initiale est effectuée en utilisant un schéma de raffinement basé sur l'apprentissage profond personnalisé. Nos résultats et comparaisons avec un grand nombre d'études connexes montrent que l'utilisation d'un grand nombre de correspondances est bénéfique pour obtenir des poses 6D de haute qualité, tant avant qu'après le raffinement. Contrairement à d'autres méthodes qui utilisent principalement des données réelles pour l'entraînement et ne s'entraînent pas sur des rendus synthétiques, nous évaluons notre méthode à la fois sur des données d'entraînement synthétiques et réelles, démontrant des résultats supérieurs avant et après le raffinement par rapport à tous les détecteurs récents. Bien qu'elle soit précise, l'approche présentée reste capable de fonctionner en temps réel.