15 天前

AI编舞师:基于AIST++的音乐条件3D舞蹈生成

Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
AI编舞师:基于AIST++的音乐条件3D舞蹈生成
摘要

我们提出了AIST++,一个全新的多模态3D舞蹈动作与音乐数据集,以及FACT(Full-Attention Cross-modal Transformer)网络,用于根据音乐生成3D舞蹈动作。所提出的AIST++数据集包含5.2小时的3D舞蹈动作,共1408个序列,涵盖10种舞蹈风格,并配有已知相机位姿的多视角视频——据我们所知,这是目前规模最大的同类数据集。我们发现,简单地将序列模型(如Transformer)应用于该数据集以实现音乐条件下的3D动作生成任务,无法产生与输入音乐高度相关联的高质量3D动作。为克服这一局限,我们在模型架构设计与监督策略方面引入了关键改进:FACT模型采用深度的跨模态Transformer模块,具备全注意力机制,并训练其预测未来$N$个动作帧。实验结果表明,这些改进是生成长序列且高度契合输入音乐的逼真舞蹈动作的关键因素。我们在AIST++数据集上进行了大量实验,并结合用户研究,结果表明,我们的方法在定性和定量两个方面均显著优于近期最先进的方法。