RePOSE : Réfinement rapide de la pose 6D d'objets par rendu texturé profond

Nous présentons RePOSE, une méthode rapide d'optimisation itérative pour l'estimation de la pose 6D d'objets. Les méthodes antérieures effectuent l'optimisation en alimentant un réseau de neurones convolutif (CNN) avec une image zoomée et une image RGB rendue, puis en régressant directement une mise à jour de la pose raffinée. Leur temps d'exécution est lent en raison du coût computationnel élevé du CNN, un inconvénient particulièrement marqué lors du raffinement de plusieurs objets simultanément. Pour surmonter ce problème, RePOSE exploite le rendu d'images à partir d'un modèle 3D doté d'une texture apprenable afin d'extraire rapidement des caractéristiques. Nous appelons cette approche « rendu de texture profonde », qui utilise un perceptron multicouche léger pour régresser directement une représentation d'image invariante par rapport à la vue d'un objet. En outre, nous utilisons une optimisation différentiable de type Levenberg-Marquardt (LM) pour raffiner la pose de manière rapide et précise, en minimisant l'erreur métrique entre les représentations d'images d'entrée et rendues, sans nécessiter de zoom. Ces représentations d'images sont entraînées de manière à ce que l'optimisation différentiable de LM converge en quelques itérations seulement. En conséquence, RePOSE fonctionne à 92 FPS et atteint une précision de pointe de 51,6 % sur le jeu de données Occlusion LineMOD — une amélioration absolue de 4,1 % par rapport à l'état de l'art précédent — tout en obtenant des résultats comparables sur le jeu de données YCB-Video, avec un temps d'exécution bien plus rapide. Le code est disponible à l'adresse suivante : https://github.com/sh8/repose.