DenseFusion : Estimation de la pose d'objets en 6D par fusion dense itérative

Un défi technique majeur dans l'estimation de la pose 6D d'objets à partir d'images RGB-D est d'exploiter pleinement les deux sources de données complémentaires. Les travaux antérieurs extraient soit des informations de l'image RGB et de la profondeur séparément, soit utilisent des étapes de post-traitement coûteuses, limitant ainsi leurs performances dans des scènes très encombrées et pour des applications en temps réel. Dans ce travail, nous présentons DenseFusion, un cadre générique pour estimer la pose 6D d'un ensemble d'objets connus à partir d'images RGB-D. DenseFusion est une architecture hétérogène qui traite individuellement les deux sources de données et utilise un réseau de fusion dense novateur pour extraire une empreinte caractéristique dense pixel par pixel, à partir de laquelle la pose est estimée. De plus, nous intégrons une procédure itérative d'affinement de la pose en bout-à-bout, qui améliore encore l'estimation de la pose tout en réalisant une inférence quasi en temps réel. Nos expériences montrent que notre méthode surpasse les approches les plus avancées dans deux jeux de données, YCB-Video et LineMOD. Nous avons également déployé notre méthode proposée sur un véritable robot pour saisir et manipuler des objets basés sur la pose estimée.