HyperAIHyperAI
il y a 17 jours

FusePose : Fusion de capteurs IMU-Vision dans l’espace cinématique pour l’estimation paramétrique de la posture humaine

Yiming Bao, Xu Zhao, Dahong Qian
FusePose : Fusion de capteurs IMU-Vision dans l’espace cinématique pour l’estimation paramétrique de la posture humaine
Résumé

Il existe des problèmes complexes dans la tâche d'estimation de la posture 3D humaine, tels que des performances médiocres dues à l'occlusion et à l'auto-occlusion. Récemment, la fusion de capteurs IMU et vision est considérée comme une approche prometteuse pour résoudre ces difficultés. Toutefois, les recherches antérieures sur la fusion de données IMU et vision, qui sont hétérogènes, n'ont pas suffisamment exploité ni les données brutes IMU ni les caractéristiques hautes niveaux fiables issues de la vision. Afin de favoriser une fusion de capteurs plus efficace, nous proposons dans ce travail un cadre appelé \emph{FusePose}, basé sur un modèle cinématique humain paramétrique. Plus précisément, nous agrégons diverses informations provenant des données IMU ou vision, et introduisons trois approches distinctes de fusion de capteurs : NaiveFuse, KineFuse et AdaDeepFuse. NaiveFuse sert de méthode de base, fusionnant uniquement des données IMU simplifiées et une posture 3D estimée dans l'espace euclidien. En revanche, dans l'espace cinématique, KineFuse permet d'intégrer les données brutes IMU calibrées et alignées avec les paramètres de posture 3D convertis. AdaDeepFuse développe ensuite ce processus de fusion cinématique vers une approche adaptative et entièrement entraînable en end-to-end. Des expériences approfondies accompagnées d'études d'ablation démontrent la pertinence et l'efficacité supérieure du cadre proposé. Les performances d'estimation de la posture 3D humaine sont améliorées par rapport au résultat de référence. Sur le jeu de données Total Capture, KineFuse dépasse l'état de l'art antérieur utilisant uniquement des IMU pour le test de 8,6 %. AdaDeepFuse dépasse quant à elle l'état de l'art utilisant des IMU à la fois pour l'entraînement et le test de 8,5 %. En outre, nous validons la capacité de généralisation de notre cadre à l'aide d'expériences menées sur le jeu de données Human3.6M.