HyperAIHyperAI
il y a 13 jours

Apprentissage de l'affinité dynamique des articulations humaines pour l'estimation de la posture 3D dans les vidéos

Junhao Zhang, Yali Wang, Zhipeng Zhou, Tianyu Luan, Zhe Wang, Yu Qiao
Apprentissage de l'affinité dynamique des articulations humaines pour l'estimation de la posture 3D dans les vidéos
Résumé

Le Réseau de Convolution sur Graphes (GCN) a été efficacement appliqué à l’estimation de la posture 3D humaine dans les vidéos. Toutefois, il repose souvent sur une affinité entre joints humains fixe, définie selon la structure squelettique humaine. Cette contrainte peut limiter la capacité d’adaptation du GCN à traiter des variations spatio-temporelles complexes de posture dans les vidéos. Pour atténuer ce problème, nous proposons un nouveau modèle, le Réseau à Graphes Dynamiques (DG-Net), capable d’identifier dynamiquement l’affinité entre joints humains et d’estimer la posture 3D en apprenant de manière adaptative les relations spatiales et temporelles entre joints à partir des vidéos. Contrairement à la convolution graphique traditionnelle, nous introduisons une convolution graphique dynamique spatiale/temporelle (DSG/DTG), permettant de découvrir l’affinité spatiale/temporelle entre joints humains pour chaque exemple vidéo, en fonction de la distance spatiale ou de la similarité de mouvement temporel entre les joints dans cette vidéo. Ainsi, le modèle peut efficacement identifier quels joints sont spatialement proches et/ou présentent un mouvement cohérent, ce qui contribue à réduire l’ambiguïté en profondeur et l’incertitude du mouvement lors de la reconstruction de la posture 3D à partir d’une posture 2D. Nous menons des expériences approfondies sur trois benchmarks populaires — Human3.6M, HumanEva-I et MPI-INF-3DHP — où DG-Net surpasser plusieurs méthodes de pointe récentes, tout en nécessitant moins de cadres d’entrée et une taille de modèle réduite.