HyperAIHyperAI
il y a 2 mois

Factorisation de l'espace de trajectoire pour l'estimation de la pose 3D humaine basée sur des vidéos en profondeur

Jiahao Lin; Gim Hee Lee
Factorisation de l'espace de trajectoire pour l'estimation de la pose 3D humaine basée sur des vidéos en profondeur
Résumé

Les approches actuelles d'apprentissage profond pour l'estimation de la posture humaine 3D dans les vidéos sont soit basées sur des Réseaux Neuronaux Récurents (RNN) soit sur des Réseaux Neuronaux Convolutifs (CNN). Cependant, les cadres basés sur les RNN ne peuvent traiter que des séquences à nombre limité de frames car les modèles séquentiels sont sensibles aux mauvaises frames et ont tendance à dériver sur de longues séquences. Bien que les cadres temporels basés sur les CNN existants tentent de résoudre les problèmes de sensibilité et de dérive en traitant simultanément toutes les frames d'entrée dans la séquence, le meilleur cadre CNN actuel est limité à l'estimation de la posture 3D d'une seule frame à partir d'une entrée séquentielle. Dans cet article, nous proposons un cadre d'apprentissage profond qui utilise la factorisation matricielle pour l'estimation séquentielle des postures 3D humaines. Notre approche traite toutes les frames d'entrée simultanément afin d'éviter les problèmes de sensibilité et de dérive, tout en produisant des estimations de posture 3D pour chaque frame de la séquence d'entrée. Plus précisément, les postures 3D dans toutes les frames sont représentées sous forme d'une matrice de mouvement factorisée en une matrice de bases trajectoire et une matrice de coefficients trajectoire. La matrice de bases trajectoire est précalculée à partir des approches de factorisation matricielle telles que la Décomposition en Valeurs Singulières (SVD) ou la Transformée en Cosinus Discrète (DCT), et le problème d'estimation séquentielle des postures 3D se réduit à former un réseau profond pour régresser la matrice de coefficients trajectoire. Nous démontrons l'efficacité de notre cadre sur des séquences longues en obtenant des performances au niveau de l'état de l'art sur plusieurs jeux de données基准数据集 (benchmark datasets). Notre code source est disponible à l'adresse suivante : https://github.com/jiahaoLjh/trajectory-pose-3d.注:在翻译中,“基准数据集”被翻译为“jeux de données benchmark”,以符合法语文献中的常用表达。