HyperAIHyperAI
il y a 2 mois

Transformateur Biased par la Géométrie pour une Reconstruction Robuste de la Pose 3D Humaine Multi-Vue

Moliner, Olivier ; Huang, Sangxia ; Åström, Kalle
Transformateur Biased par la Géométrie pour une Reconstruction Robuste de la Pose 3D Humaine Multi-Vue
Résumé

Nous abordons les défis liés à l'estimation des poses humaines en 3D à partir de vues multiples en présence d'occlusions et avec un chevauchement limité des vues. Nous traitons la reconstruction 3D de la pose d'une seule personne à partir de vues multiples comme un problème de régression et proposons une nouvelle architecture de Transformer encodeur-décodeur pour estimer les poses en 3D à partir de séquences de poses en 2D multi-vues. L'encodeur affine les articulations du squelette 2D détectées dans différentes vues et à différents moments, en fusionnant les informations multi-vues et temporelles grâce à l'auto-attention globale. Nous améliorons l'encodeur en intégrant un mécanisme d'attention biaisée par la géométrie, permettant ainsi d'exploiter efficacement les relations géométriques entre les vues. De plus, nous utilisons les scores de détection fournis par le détecteur de pose 2D pour guider davantage l'attention de l'encodeur en fonction de la fiabilité des détections 2D. Le décodeur régresse ensuite la séquence de pose 3D à partir de ces jetons affinés, en utilisant des requêtes prédéfinies pour chaque articulation. Pour améliorer la généralisation de notre méthode à des scènes inconnues et renforcer sa résilience face aux articulations manquantes, nous mettons en œuvre des stratégies telles que le centrage sur la scène, les vues synthétiques et le dropout des jetons. Nous menons des expériences approfondies sur trois jeux de données publics de référence : Human3.6M, CMU Panoptic et Occlusion-Persons. Nos résultats démontrent l'efficacité de notre approche, notamment dans les scènes occluses et lorsque peu de vues sont disponibles, qui constituent traditionnellement des scénarios difficiles pour les méthodes basées sur la triangulation.

Transformateur Biased par la Géométrie pour une Reconstruction Robuste de la Pose 3D Humaine Multi-Vue | Articles de recherche récents | HyperAI