Pix2Pose : Régression de Coordonnées Pixel par Pixel pour l'Estimation de la Pose 6D des Objets

L'estimation de la pose 6D des objets à partir d'images RGB uniquement reste un défi en raison de problèmes tels que l'occlusion et les symétries. Il est également difficile de construire des modèles 3D avec une texture précise sans connaissances expertes ou dispositifs de numérisation spécialisés. Pour résoudre ces problèmes, nous proposons une nouvelle méthode d'estimation de pose, Pix2Pose, qui prédit les coordonnées 3D de chaque pixel d'un objet sans modèles texturés. Une architecture d'auto-encodeur est conçue pour estimer les coordonnées 3D et les erreurs attendues par pixel. Ces prédictions au niveau du pixel sont ensuite utilisées dans plusieurs étapes pour former des correspondances 2D-3D afin de calculer directement les poses avec l'algorithme PnP (Perspective-n-Point) et des itérations RANSAC (RANdom SAmple Consensus). Notre méthode est robuste face à l'occlusion en tirant parti des récentes avancées dans l'entraînement génératif adversarial pour récupérer précisément les parties occultées. De plus, une nouvelle fonction de perte, appelée perte transformer (transformer loss), est proposée pour gérer les objets symétriques en guidant les prédictions vers la pose symétrique la plus proche. Les évaluations sur trois jeux de données différents contenant des objets symétriques et occultés montrent que notre méthode surpasse l'état de l'art en utilisant uniquement des images RGB.