MotionMixer : Prévision de posture du corps humain 3D basée sur les MLP

Dans ce travail, nous présentons MotionMixer, un modèle efficace de prédiction de la posture 3D du corps humain fondé exclusivement sur des perceptrons multicouches (MLP). MotionMixer apprend les dépendances spatio-temporelles de la posture 3D du corps humain en mixant séquentiellement les différentes modalités. Étant donné une séquence empilée de postures 3D du corps, un MLP spatial extrait les dépendances spatiales fines des articulations corporelles. L'interaction entre les articulations au fil du temps est ensuite modélisée par un MLP temporel. Les caractéristiques spatio-temporelles mixées sont finalement agrégées et décodées afin d’obtenir le mouvement futur. Pour ajuster l’influence de chaque instant dans la séquence de postures, nous utilisons des blocs squeeze-and-excitation (SE). Nous évaluons notre approche sur les jeux de données Human3.6M, AMASS et 3DPW, selon les protocoles d’évaluation standards. Dans toutes les évaluations, nous démontrons des performances de pointe, tout en disposant d’un modèle comportant un nombre réduit de paramètres. Notre code est disponible à l’adresse suivante : https://github.com/MotionMLP/MotionMixer