VNect : Estimation en temps réel de la posture 3D humaine avec une seule caméra RGB

Nous présentons la première méthode en temps réel pour capturer la posture squelettique globale 3D complète d'un être humain de manière stable et temporellement cohérente à l'aide d'une seule caméra RGB. Notre méthode combine un nouveau régresseur de posture basé sur un réseau neuronal convolutif (CNN) avec un ajustement de squelette cinématique. Notre formulation novatrice de posture entièrement convolutive régresse les positions des articulations 2D et 3D conjointement en temps réel et n'exige pas des cadres d'entrée serrés. Une méthode d'ajustement de squelette cinématique en temps réel utilise la sortie du CNN pour produire des reconstructions de posture globale 3D temporellement stables, basées sur un squelette cinématique cohérent. Cela fait de notre approche la première méthode monulaire RGB utilisable dans des applications en temps réel telles que le contrôle de personnages 3D—jusqu'à présent, seules les méthodes monulaires employant des caméras RGB-D spécialisées étaient utilisées pour ce type d'applications. La précision de notre méthode est quantitativement comparable à celle des meilleures méthodes hors ligne pour l'estimation de la posture 3D monulaire RGB. Nos résultats sont qualitativement comparables, voire parfois supérieurs, à ceux obtenus par des approches monulaires RGB-D, comme le Kinect. Cependant, nous démontrons que notre approche est plus largement applicable que les solutions RGB-D, c'est-à-dire qu'elle fonctionne pour des scènes en extérieur, des vidéos communautaires et des caméras RGB grand public de faible qualité.