Fusion de l'apparence visuelle et de la géométrie pour le suivi d'objets multi-modales en 6DoF

Dans de nombreuses applications de manipulation robotique avancée, des estimations continues de la position et de l'orientation d'objets à six degrés de liberté (6DoF) sont nécessaires. Dans ce travail, nous développons un suiveur multi-modal qui fusionne les informations d'apparence visuelle et de géométrie pour estimer les poses d'objets. L'algorithme étend notre méthode précédente ICG, qui utilise la géométrie, en prenant également en compte l'apparence des surfaces.En général, les surfaces des objets contiennent des caractéristiques locales issues du texte, des graphiques et des motifs, ainsi que des différences globales dues à des matériaux et des couleurs distincts. Pour intégrer ces informations visuelles, deux modalités sont développées. Pour les caractéristiques locales, des caractéristiques de points clés sont utilisées pour minimiser les distances entre les points provenant des images-clés et l'image actuelle. Pour les différences globales, une nouvelle approche régionale est développée qui prend en compte plusieurs zones sur la surface de l'objet. De plus, cette approche permet la modélisation de géométries externes.Les expériences menées sur les jeux de données YCB-Video et OPT montrent que notre approche ICG+ se distingue comme étant la meilleure sur les deux jeux de données, surpassant tant les méthodes conventionnelles que celles basées sur l'apprentissage profond. En même temps, l'algorithme est très efficace et fonctionne à plus de 300 Hz. Le code source de notre suiveur est disponible au public.