Génération progressive de meilleures estimations initiales pour les étapes suivantes afin d'obtenir une prédiction de mouvement humain de haute qualité

Cet article présente une méthode de haute qualité pour la prédiction du mouvement humain, capable de prévoir avec précision les poses futures à partir de poses observées. Notre approche repose sur l’observation selon laquelle une bonne estimation initiale des poses futures est particulièrement utile pour améliorer la précision de la prédiction. Cela nous a motivés à proposer un nouveau cadre en deux étapes : un réseau d’estimation initiale (init-prediction network) qui calcule simplement cette bonne estimation, suivi d’un réseau de prédiction formelle (formal-prediction network) qui prédit les poses futures cibles à partir de cette estimation. Plus important encore, nous étendons cette idée en concevant un cadre multi-étapes, où chaque étape produit une estimation initiale pour l’étape suivante, ce qui permet d’obtenir des gains supplémentaires en performance. Pour réaliser la tâche de prédiction à chaque étape, nous proposons un réseau composé de réseaux de convolution par graphe dense spatiale (S-DGCN) et de réseaux de convolution par graphe dense temporelle (T-DGCN). L’exécution alternée de ces deux réseaux permet d’extraire efficacement des caractéristiques spatio-temporelles sur le champ réceptif global de toute la séquence de poses. Toutes ces décisions de conception, combinées entre elles, font que notre méthode surpasser largement les approches antérieures : une amélioration de 6 à 7 % sur Human3.6M, de 5 à 10 % sur CMU-MoCap, et de 13 à 16 % sur 3DPW.