Une approche générique basée sur la diffusion pour la prévision de la posture 3D humaine dans des environnements naturels

La prédiction des poses 3D humaines dans des scénarios du monde réel, également appelée prévision de la posture humaine, est inévitablement soumise à des entrées bruitées résultant d’estimations de poses 3D inexactes et d’occlusions. Pour relever ces défis, nous proposons une approche fondée sur les modèles de diffusion capable de prédire à partir d’observations bruitées. Nous reformulons la tâche de prédiction comme un problème de débruitage, où à la fois l’observation et la prédiction sont considérées comme une seule séquence contenant des éléments manquants (qu’ils soient présents dans l’observation ou dans l’horizon de prédiction). Tous les éléments manquants sont traités comme du bruit et débruités à l’aide de notre modèle de diffusion conditionnel. Pour mieux gérer des horizons de prévision à long terme, nous introduisons un modèle de diffusion en cascade temporelle. Nous démontrons les avantages de notre approche sur quatre jeux de données publics (Human3.6M, HumanEva-I, AMASS et 3DPW), où elle surpasser les méthodes de pointe. En outre, nous montrons que notre cadre est suffisamment général pour améliorer tout modèle de prédiction de pose 3D en tant que étape préalable de traitement des entrées afin de corriger les données bruitées, et en tant que étape postérieure pour affiner les sorties. Le code est disponible en ligne : \url{https://github.com/vita-epfl/DePOSit}.