HyperAIHyperAI
il y a 2 mois

MotionBERT : Une perspective unifiée sur l'apprentissage des représentations du mouvement humain

Zhu, Wentao ; Ma, Xiaoxuan ; Liu, Zhaoyang ; Liu, Libin ; Wu, Wayne ; Wang, Yizhou
MotionBERT : Une perspective unifiée sur l'apprentissage des représentations du mouvement humain
Résumé

Nous présentons une perspective unifiée pour aborder diverses tâches vidéo centrées sur l'humain en apprenant des représentations de mouvement humain à partir de ressources de données à grande échelle et hétérogènes. Plus précisément, nous proposons une étape de pré entraînement au cours de laquelle un encodeur de mouvement est formé pour récupérer le mouvement 3D sous-jacent à partir d'observations 2D partielles et bruyantes. Les représentations de mouvement acquises par cette méthode intègrent des connaissances géométriques, cinématiques et physiques sur le mouvement humain, qui peuvent être facilement transférées à plusieurs tâches en aval. Nous avons mis en œuvre l'encodeur de mouvement avec un réseau neuronal Dual-stream Spatio-temporel Transformer (DSTformer). Ce réseau peut capturer les relations spatio-temporelles à long terme entre les articulations squelettiques de manière exhaustive et adaptative, comme en témoigne l'erreur d'estimation de pose 3D la plus faible à ce jour lorsqu'il est formé à partir de zéro. De plus, notre cadre proposé atteint des performances d'état de l'art sur les trois tâches en aval simplement en affinant l'encodeur de mouvement pré-entraîné avec une tête régressive simple (1-2 couches), ce qui démontre la polyvalence des représentations de mouvement apprises. Le code source et les modèles sont disponibles à l'adresse suivante : https://motionbert.github.io/

MotionBERT : Une perspective unifiée sur l'apprentissage des représentations du mouvement humain | Articles de recherche récents | HyperAI