MOSPA : Génération de mouvements humains pilotée par l'audio spatial

Permettre aux humains virtuels de réagir dynamiquement et de manière réaliste à des stimuli auditifs divers reste un défi majeur en animation de personnages, exigeant l'intégration de la modélisation perceptuelle et de la synthèse du mouvement. Malgré son importance, cette tâche reste largement inexplorée. La plupart des travaux précédents se sont principalement concentrés sur l'association de modalités telles que la parole, le son et la musique pour générer des mouvements humains. Jusqu'à présent, ces modèles négligent généralement l'impact des caractéristiques spatiales codées dans les signaux audio spatiaux sur les mouvements humains. Pour combler ce fossé et permettre une modélisation de haute qualité des mouvements humains en réponse au son spatial, nous introduisons le premier ensemble de données complet Spatial Audio-Driven Human Motion (SAM), qui contient des données audio spatiales et de mouvement diverses et de haute qualité. Pour établir un benchmark, nous développons un cadre génératif basé sur la diffusion simple mais efficace pour la génération de mouvements humains guidés par le son spatial, appelé MOSPA (Motion generation driven by SPatial Audio). Ce modèle capture fidèlement la relation entre le mouvement corporel et le son spatial grâce à un mécanisme d'fusion efficace. Une fois entraîné, MOSPA peut générer des mouvements humains réalistes et variés conditionnés par différentes entrées audio spatiales. Nous menons une enquête approfondie sur l'ensemble de données proposé et effectuons des expériences étendues pour établir un benchmark, où notre méthode atteint des performances d'état de l'art dans cette tâche. Notre modèle et notre ensemble de données seront open-source à l'acceptation. Veuillez vous référer à notre vidéo supplémentaire pour plus de détails.