Estimation de la posture humaine dans l'espace et le temps à l'aide de CNN 3D

Ce travail explore les capacités des réseaux de neurones convolutifs pour traiter une tâche qui est facilement maîtrisée par les humains : la perception de la posture 3D d'un corps humain sous différents angles. Cependant, dans notre approche, nous sommes limités à l'utilisation d'un système de vision monoculaire. À cette fin, nous appliquons une approche basée sur les réseaux de neurones convolutifs aux vidéos RGB et l'étendons aux convolutions tridimensionnelles. Ceci est réalisé en codant la dimension temporelle des vidéos comme la troisième dimension dans l'espace convolutif, et en régressant directement vers les positions des articulations du corps humain dans l'espace de coordonnées 3D. Cette recherche montre la capacité d'un tel réseau à atteindre des performances de pointe sur le jeu de données Human3.6M sélectionné, démontrant ainsi la possibilité de représenter avec succès les données temporelles grâce à une dimension supplémentaire dans l'opération convolutive.