6 个月前

摘要

自古以来，随着音乐起舞便是人类与生俱来的本能。然而，在机器学习研究领域，从音乐中合成舞蹈动作仍是一个极具挑战性的问题。近期，研究人员尝试通过自回归模型（如循环神经网络，RNN）生成人体运动序列。然而，这类方法由于预测误差的累积并不断反馈至神经网络，往往难以生成较长的运动序列，这一问题在长序列生成任务中尤为严重。此外，在建模过程中，舞蹈与音乐在风格、节奏和节拍等方面的协调一致性尚未得到充分考虑。本文将音乐条件下的舞蹈生成问题形式化为一个序列到序列（seq2seq）学习任务，并提出一种新颖的seq2seq架构，能够高效处理长序列的音乐特征，同时捕捉音乐与舞蹈之间的细粒度对应关系。此外，我们设计了一种创新的课程学习（curriculum learning）策略，有效缓解自回归模型在长序列生成中误差累积的问题。该策略在训练过程中逐步从完全依赖真实运动轨迹的教师强制（teacher-forcing）模式，平滑过渡到主要依赖生成运动的自回归模式，从而提升模型的稳定性和生成质量。大量实验结果表明，所提出的方法在自动评估指标和人工评价方面均显著优于现有最先进方法。我们还制作了演示视频，以直观展示本方法的优越性能，视频地址为：https://www.youtube.com/watch?v=lmE20MEheZ8。

源 PDF