Captation égocentrique du mouvement corporel complet avec FisheyeViT et raffinement du mouvement basé sur la diffusion

Dans cette étude, nous explorons la capture de mouvement égocentrique du corps entier à l'aide d'une seule caméra fisheye, capable d'estimer simultanément le mouvement du corps humain et des mains. Cette tâche présente des défis importants en raison de trois facteurs : le manque de jeux de données de haute qualité, la distorsion de la caméra fisheye et l'auto-occultation du corps humain. Pour relever ces défis, nous proposons une nouvelle approche qui utilise FisheyeViT pour extraire les caractéristiques des images fisheye, qui sont ensuite converties en représentations 3D de cartes thermiques alignées aux pixels pour prédire la posture 3D du corps humain. Pour le suivi des mains, nous intégrons des réseaux dédiés à la détection et à l'estimation de la posture des mains afin de régresser les postures 3D des mains. Enfin, nous développons un modèle prédictif de mouvement du corps entier basé sur la diffusion pour affiner l'estimation du mouvement du corps entier tout en tenant compte des incertitudes articulaires. Pour entraîner ces réseaux, nous avons collecté un grand jeu de données synthétiques, EgoWholeBody, composé de 840 000 images égocentriques de haute qualité capturées dans une gamme diversifiée de séquences de mouvements du corps entier. Les évaluations quantitatives et qualitatives montrent l'efficacité de notre méthode pour produire des estimations de mouvements du corps entier de haute qualité à partir d'une seule caméra égocentrique.