Vers une reconstruction mains-objets conjointe sans contraintes à partir de vidéos RGB

Notre travail vise à obtenir une reconstruction 3D des mains et des objets manipulés à partir de vidéos monoculaires. La reconstruction des manipulations main-objet présente un grand potentiel pour la robotique et l'apprentissage par démonstration humaine. Cependant, l'approche d'apprentissage supervisé à ce problème nécessite une supervision 3D et reste limitée aux environnements de laboratoire contraints et aux simulateurs pour lesquels la vérité terrain 3D est disponible. Dans cet article, nous proposons d'abord une approche d'ajustement sans apprentissage pour la reconstruction main-objet, capable de gérer de manière fluide les interactions entre deux mains et un objet. Notre méthode s'appuie sur des indices obtenus avec des méthodes courantes de détection d'objets, d'estimation de la posture de la main et de segmentation d'instances. Nous évaluons quantitativement notre approche et montrons qu'elle peut être appliquée à des ensembles de données présentant différents niveaux de difficulté, même en l'absence de données d'entraînement.