Prédiction de la motion humaine consciente de la scène par estimation mutuelle de distance

Dans cet article, nous abordons le problème de la prévision de mouvements 3D humains conscientes du contexte scénique. Un défi majeur de cette tâche consiste à prédire des mouvements futurs humains cohérents avec l’environnement en modélisant les interactions entre l’humain et la scène. Bien que les travaux récents aient montré qu’il est possible de prévenir l’apparition de mouvements fantômes grâce à des contraintes explicites sur les interactions humain-scène, ces contraintes ne s’appliquent qu’à une partie du mouvement humain, par exemple le mouvement global ou quelques articulations en contact avec la scène, laissant le reste du mouvement non contraint. Pour surmonter cette limitation, nous proposons de modéliser les interactions humain-scène à l’aide de distances mutuelles entre le corps humain et la scène. Ces distances mutuelles contrôlent à la fois le mouvement local et global, conduisant ainsi à une prédiction contrainte sur l’ensemble du corps. Plus précisément, les contraintes de distance mutuelle se composent de deux éléments : la distance signée de chaque sommet du maillage humain à la surface de la scène, et la distance entre des points de référence de la scène et le maillage humain. Nous introduisons également une représentation globale de la scène apprise à partir d’un volume de fonction de distance signée (SDF), afin d’assurer une cohérence entre cette représentation globale et les contraintes explicites issues des distances mutuelles. Nous avons conçu un pipeline en deux étapes séquentielles : d’abord prédire les distances mutuelles futures, puis prévoir le mouvement humain futur. Lors de l’entraînement, nous encourageons explicitement la cohérence entre les poses prédites et les distances mutuelles. Des évaluations étendues sur des jeux de données synthétiques et réels existants montrent que notre approche surpasse de manière cohérente les méthodes de pointe actuelles.