HyperAIHyperAI
vor einem Monat

MOSPA: Menschliche Bewegungserzeugung gesteuert durch räumliches Audio

Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
MOSPA: Menschliche Bewegungserzeugung gesteuert durch räumliches Audio
Abstract

Die Möglichkeit, virtuelle Menschen dazu zu befähigen, auf vielfältige akustische Reize dynamisch und realistisch zu reagieren, bleibt eine wichtige Herausforderung im Bereich der Charakteranimation. Dies erfordert die Integration von Wahrnehmungsmodellierung und Bewegungssynthese. Trotz seiner Bedeutung ist diese Aufgabe weitgehend unerforscht geblieben. Die meisten bisherigen Arbeiten haben sich hauptsächlich darauf konzentriert, Modalitäten wie Sprache, Audio und Musik abzubilden, um menschliche Bewegungen zu generieren. Bislang übersehen diese Modelle jedoch in der Regel den Einfluss räumlicher Merkmale, die in räumlichen Audiosignalen kodiert sind, auf menschliche Bewegungen. Um diese Lücke zu schließen und hochwertige Modellierungen menschlicher Bewegungen in Reaktion auf räumliches Audio zu ermöglichen, stellen wir den ersten umfassenden Spatial Audio-Driven Human Motion (SAM)-Datensatz vor, der vielfältige und hochwertige räumliche Audio- und Bewegungsdaten enthält. Für die Benchmarking entwickeln wir ein einfaches, aber effektives diffusionsbasiertes generatives Framework zur Erzeugung menschlicher Bewegungen durch räumliches Audio, das als MOSPA (Motion generation driven by SPatial Audio) bezeichnet wird. Dieses erfasst treu die Beziehung zwischen Körpersbewegung und räumlichem Audio durch einen effektiven Fusionsmechanismus. Nach dem Training kann MOSPA realistische menschliche Bewegungen unter Berücksichtigung verschiedener räumlicher Audioeingaben generieren. Wir führen eine gründliche Untersuchung des vorgeschlagenen Datensatzes durch und führen umfangreiche Experimente zur Benchmarking durch, bei denen unsere Methode den Stand der Technik in dieser Aufgabe erreicht. Unser Modell und unser Datensatz werden bei Annahme offengelegt. Für weitere Details sei auf unser Ergänzungsvideo verwiesen.

MOSPA: Menschliche Bewegungserzeugung gesteuert durch räumliches Audio | Neueste Forschungsarbeiten | HyperAI