Estimation différentiable end-to-end de la pose 6DoF d'objet avec des contraintes locales et globales

Estimer la pose 6DoF d’un objet à partir d’une seule image RGB est une tâche importante mais difficile, en particulier en cas d’occlusion importante. Bien que les approches récentes améliorent les méthodes en deux étapes en introduisant des pipelines end-to-end, elles ne tirent pas parti des contraintes locales et globales. Dans cet article, nous proposons une extraction de caractéristiques par paires pour intégrer les contraintes locales, ainsi qu’une régularisation par triplet pour intégrer les contraintes globales, afin d’améliorer l’estimation de la pose 6DoF des objets. Associée à une meilleure augmentation de données, notre méthode atteint des résultats de pointe sur le défi du dataset Occlusion Linemod, avec une amélioration de 9 % par rapport à l’état de l’art précédent, et obtient également des performances compétitives sur le dataset Linemod.