Capture en temps réel du corps entier à partir d'une seule caméra avec corrélations entre parties du corps

Nous présentons la première méthode de capture en temps réel du corps entier permettant d’estimer simultanément la forme et le mouvement du corps, des mains et d’un modèle facial 3D dynamique à partir d’une seule image couleur. Notre approche repose sur une nouvelle architecture de réseau neuronal exploitant efficacement les corrélations entre le corps et les mains, tout en maintenant une faible charge computationnelle. Contrairement aux travaux antérieurs, notre méthode est entraînée conjointement sur plusieurs jeux de données dédiés respectivement aux mains, au corps ou au visage, sans nécessiter de données où toutes les parties sont annotées simultanément — une contrainte qui rend la création de telles données particulièrement difficile à réaliser avec une variété suffisante. La possibilité d’un entraînement multi-jeux de données permet une meilleure capacité de généralisation. À la différence des méthodes monoculaires antérieures, notre approche capture une géométrie faciale 3D plus expressive ainsi que des couleurs réalistes en estimant les paramètres de forme, d’expression, d’albédo et d’éclairage d’un modèle facial statistique. Notre méthode atteint des performances compétitives sur des benchmarks publics, tout en étant significativement plus rapide et en fournissant des reconstructions faciales plus complètes.