HyperAIHyperAI
il y a 9 jours

Estimation de la posture humaine 3D à l’aide de réseaux spatio-temporels avec formation explicite aux occlusions

Yu Cheng, Bo Yang, Bo Wang, Robby T. Tan
Estimation de la posture humaine 3D à l’aide de réseaux spatio-temporels avec formation explicite aux occlusions
Résumé

L’estimation des poses 3D à partir d’une vidéo monoscopique reste une tâche difficile, malgré les progrès significatifs réalisés ces dernières années. En général, les performances des méthodes existantes se dégradent lorsque la personne cible est trop petite/grande, ou lorsque son mouvement est trop rapide/lent par rapport à l’échelle et à la vitesse des données d’entraînement. De plus, selon nos connaissances, nombre de ces méthodes ne sont ni conçues ni entraînées de manière explicite dans des conditions de masquage sévère, ce qui compromet leur capacité à traiter efficacement les occlusions. Pour relever ces défis, nous proposons un réseau spatio-temporel pour une estimation robuste des poses humaines 3D. Étant donné que les humains dans les vidéos peuvent apparaître à différentes échelles et présenter diverses vitesses de mouvement, nous utilisons des caractéristiques spatiales multi-échelles pour la prédiction des joints ou points clés 2D dans chaque trame individuelle, ainsi que des réseaux de convolution temporelle à pas multiples (TCNs) pour estimer les joints ou points clés 3D. En outre, nous avons conçu un discriminateur spatio-temporel fondé sur les structures corporelles ainsi que sur les mouvements des membres, afin d’évaluer si la pose prédite est valide ainsi que si le mouvement correspond est cohérent. Lors de l’entraînement, nous masquons explicitement certains points clés de manière aléatoire pour simuler diverses situations d’occlusion, allant des occlusions légères aux occlusions sévères, afin que notre réseau puisse mieux apprendre et devenir robuste face à différents degrés d’occlusion. Étant donné la limitation des données d’étiquetage 3D, nous exploitons également des données vidéo 2D pour intégrer une capacité d’apprentissage semi-supervisé à notre réseau. Des expériences menées sur des jeux de données publics valident l’efficacité de notre méthode, et les études d’ablation démontrent les avantages de chacun de ses sous-modules.