HyperAIHyperAI
il y a 2 mois

Machines de pose humaine 3D avec apprentissage auto-supervisé

Keze Wang; Liang Lin; Chenhan Jiang; Chen Qian; Pengxu Wei
Machines de pose humaine 3D avec apprentissage auto-supervisé
Résumé

Propulsée par les récentes applications en vision par ordinateur et en robotique, la restitution des poses humaines en 3D est devenue de plus en plus importante et a suscité un intérêt croissant. En effet, accomplir cette tâche est particulièrement ardue en raison des apparences diverses, des points de vue multiples, des occultations et des ambiguïtés géométriques inhérentes aux images monoculaires. La plupart des méthodes existantes se concentrent sur la conception de contraintes élaborées pour régresser directement les poses humaines en 3D à partir des caractéristiques sensibles aux poses humaines en 2D ou des prédictions de poses en 2D correspondantes. Cependant, en raison du manque de données de pose 3D pour l'entraînement et du fossé entre l'espace 2D et l'espace 3D, ces méthodes présentent une scalabilité limitée pour tous les scénarios pratiques (par exemple, scène extérieure).Pour remédier à ce problème, cet article propose un mécanisme d'autocorrection simple mais efficace permettant d'apprendre toutes les structures intrinsèques des poses humaines à partir d'une abondance d'images. Plus précisément, le mécanisme proposé implique deux tâches d'apprentissage dualles : la transformation de pose 2D vers 3D et la projection de pose 3D vers 2D, servant de pont entre les poses humaines en 3D et en 2D dans un type d'autosupervision « gratuite » pour une estimation précise des poses humaines en 3D.La transformation de pose 2D vers 3D consiste à régresser séquentiellement des poses intermédiaires en 3D en transformant la représentation de pose du domaine 2D au domaine 3D sous le contexte temporel dépendant de la séquence. Quant à la projection de pose 3D vers 2D, elle contribue à affiner les poses intermédiaires en 3D en maintenant une cohérence géométrique entre les projections 2D des poses en 3D et les poses estimées en 2D.Nous appliquons notre mécanisme d'autocorrection à développer une machine de pose humaine en 3D qui intègre conjointement la relation spatiale bidimensionnelle, la fluidité temporelle des prédictions et les connaissances géométriques tridimensionnelles. Des évaluations approfondies démontrent la supériorité et l'efficacité de notre cadre par rapport à toutes les méthodes concurrentes comparées.