DeepIM : Deep Iterative Matching pour l'Estimation de la Pose en 6D

L'estimation de la pose 6D des objets à partir d'images est un problème important dans diverses applications telles que la manipulation robotique et la réalité virtuelle. Bien que la régression directe des images vers les poses d'objets présente une précision limitée, le couplage d'images rendues d'un objet avec l'image observée peut produire des résultats précis. Dans cette étude, nous proposons un nouveau réseau neuronal profond pour le couplage de pose 6D nommé DeepIM. Étant donné une estimation initiale de la pose, notre réseau est capable de raffiner itérativement la pose en couplant l'image rendue avec l'image observée. Le réseau est formé pour prédire une transformation de pose relative en utilisant une représentation non emmêlée de la position 3D et de l'orientation 3D, ainsi qu'un processus de formation itératif. Les expériences menées sur deux benchmarks couramment utilisés pour l'estimation de la pose 6D montrent que DeepIM réalise d'importantes améliorations par rapport aux méthodes les plus avancées actuellement disponibles. Nous montrons également que DeepIM est capable de coupler des objets jamais vus auparavant.