BeLFusion : Diffusion latente pour la prédiction du mouvement humain basée sur le comportement

La prédiction stochastique du mouvement humain (HMP) a généralement été abordée à l'aide de réseaux de neurones génératifs adverses et d'autoencodeurs variationnels. La plupart des travaux antérieurs visent à prédire des mouvements hautement diversifiés en termes de dispersion des articulations squelettiques. Cela a conduit à des méthodes prédisant des mouvements rapides et divergents, qui sont souvent irréalistes et incohérents avec le mouvement passé. Ces méthodes négligent également les contextes nécessitant l'anticipation de comportements ou d'actions diversifiés mais à faible amplitude, caractérisés par des déplacements subtils des articulations. Pour remédier à ces problèmes, nous présentons BeLFusion, un modèle qui, pour la première fois, utilise des modèles de diffusion latente dans l'HMP pour échantillonner dans un espace latent où le comportement est dissocié de la posture et du mouvement. En conséquence, la diversité est encouragée sous l'angle comportemental. Grâce à la capacité de notre couplage comportemental à transférer le comportement échantillonné au mouvement en cours, les prédictions de BeLFusion affichent une variété de comportements considérablement plus réalistes que l'état de l'art. Pour soutenir cela, nous introduisons deux métriques : l'aire sous la distribution cumulative du mouvement (Area of the Cumulative Motion Distribution) et l'erreur moyenne entre paires (Average Pairwise Distance Error), qui sont corrélées à notre définition du réalisme selon une étude qualitative impliquant 126 participants. Enfin, nous démontrons la puissance de généralisation de BeLFusion dans un nouveau scénario inter-bases pour l'HMP stochastique.