GDRNPP : Un estimateur de pose d'objet guidé par la géométrie et entièrement fondé sur l'apprentissage

L'estimation de la pose 6D d'objets rigides constitue une tâche ancienne et difficile en vision par ordinateur. Récemment, l'émergence du deep learning a mis en évidence le potentiel des réseaux de neurones convolutifs (CNN) à prédire des poses 6D fiables. Étant donné que les réseaux de régression directe de la pose présentent actuellement des performances sous-optimales, la plupart des méthodes continuent, à des degrés variés, de recourir à des techniques traditionnelles. Par exemple, les méthodes les plus performantes adoptent souvent une stratégie indirecte : elles établissent d'abord des correspondances 2D-3D ou 3D-3D, puis appliquent les algorithmes PnP basés sur RANSAC ou l'algorithme de Kabsch, avant d'utiliser l'ICP pour une révision fine. Malgré l'amélioration des performances, l'intégration de techniques traditionnelles rend ces approches chronophages et empêche leur apprentissage end-to-end. À l'opposé, ce papier introduit un estimateur de pose d'objets entièrement fondé sur l'apprentissage automatique. Dans ce travail, nous menons d'abord une analyse approfondie des méthodes directes et indirectes, puis proposons un réseau de régression directe guidé par la géométrie, simple mais efficace (GDRN), capable d'apprendre la pose 6D à partir d'images monochromatiques de manière end-to-end. Par la suite, nous introduisons un module de raffinement de la pose guidé par la géométrie, qui améliore la précision de la pose lorsque des données de profondeur supplémentaires sont disponibles. Guidé par la carte de coordonnées prédite, nous concevons une architecture différentiable end-to-end qui établit des correspondances 3D-3D robustes et précises entre les images RGB-D observées et rendues, afin de raffiner la pose. Notre pipeline d'estimation de pose améliorée, GDRNPP (GDRN Plus Plus), a dominé le classement du BOP Challenge pendant deux années consécutives, devenant ainsi la première méthode à surpasser toutes les approches antérieures reposant sur des techniques traditionnelles en termes de précision et de vitesse. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/shanice-l/gdrnpp_bop2022.