1 个月前
MOSPA:由空间音频驱动的人类运动生成
Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura

摘要
使虚拟人类能够动态且真实地响应各种听觉刺激仍然是角色动画中的一个关键挑战,需要感知建模和动作合成的集成。尽管这一任务具有重要意义,但目前仍鲜有研究涉及。大多数先前的工作主要集中在将语音、音频和音乐等模态映射到生成人类动作上。然而,这些模型通常忽略了空间音频信号中编码的空间特征对人类动作的影响。为了弥合这一差距并实现对空间音频响应的人类运动的高质量建模,我们引入了首个全面的空间音频驱动人体运动(SAM)数据集,该数据集包含多样且高质量的空间音频和动作数据。为了进行基准测试,我们开发了一种简单而有效的基于扩散的人体运动生成框架,该框架由空间音频驱动,称为MOSPA(MOtion generation driven by SPatial Audio),通过有效的融合机制忠实地捕捉了身体运动与空间音频之间的关系。训练完成后,MOSPA可以根据不同的空间音频输入生成多样且真实的人体动作。我们对所提出的数据集进行了详尽的研究,并进行了广泛的基准测试实验,在此任务上我们的方法达到了最先进的性能。我们的模型和数据集将在被接受后开源。更多详情请参阅我们的补充视频。