MotionBERT : Une perspective unifiée sur l'apprentissage des représentations du mouvement humain

Nous présentons une perspective unifiée pour aborder diverses tâches vidéo centrées sur l'humain en apprenant des représentations de mouvement humain à partir de ressources de données à grande échelle et hétérogènes. Plus précisément, nous proposons une étape de pré entraînement au cours de laquelle un encodeur de mouvement est formé pour récupérer le mouvement 3D sous-jacent à partir d'observations 2D partielles et bruyantes. Les représentations de mouvement acquises par cette méthode intègrent des connaissances géométriques, cinématiques et physiques sur le mouvement humain, qui peuvent être facilement transférées à plusieurs tâches en aval. Nous avons mis en œuvre l'encodeur de mouvement avec un réseau neuronal Dual-stream Spatio-temporel Transformer (DSTformer). Ce réseau peut capturer les relations spatio-temporelles à long terme entre les articulations squelettiques de manière exhaustive et adaptative, comme en témoigne l'erreur d'estimation de pose 3D la plus faible à ce jour lorsqu'il est formé à partir de zéro. De plus, notre cadre proposé atteint des performances d'état de l'art sur les trois tâches en aval simplement en affinant l'encodeur de mouvement pré-entraîné avec une tête régressive simple (1-2 couches), ce qui démontre la polyvalence des représentations de mouvement apprises. Le code source et les modèles sont disponibles à l'adresse suivante : https://motionbert.github.io/