Prédiction Diversifiée du Mouvement Humain Guidée par des Ancres Spatio-Temporelles à Multiple Niveaux

La prédiction de mouvements humains divers à partir d'une séquence de poses historiques a suscité une attention croissante. Malgré les progrès rapides, les travaux existants capturent principalement la nature multi-modale des mouvements humains par l'échantillonnage basé sur la vraisemblance, où le phénomène de collapse modale a été largement observé. Dans cet article, nous proposons une approche simple mais efficace qui dissocie les codes échantillonnés aléatoirement avec un composant déterministe apprenable nommé ancres pour améliorer la précision et la diversité des échantillons. Les ancres sont ensuite factorisées en ancres spatiales et temporelles, ce qui offre un contrôle interprétable et attrayant sur la disparité spatio-temporelle. En principe, notre échantillonnage basé sur les ancres spatio-temporelles (STARS) peut être appliqué à différents prédicteurs de mouvement. Nous proposons ici un réseau de convolution graphique spatio-temporel renforcé par l'interaction (IE-STGCN) qui encode des connaissances a priori sur les mouvements humains (par exemple, la localité spatiale), et nous intégrons les ancres dans celui-ci. De nombreuses expériences montrent que notre approche surpasses l'état de l'art tant dans la prédiction stochastique que déterministe, suggérant qu'elle constitue un cadre unifié pour modéliser les mouvements humains. Notre code source et nos modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/Sirui-Xu/STARS.