3 个月前

扩散运动:通过扩散模型生成文本引导的3D人体运动

Zhiyuan Ren, Zhihong Pan, Xin Zhou, Le Kang
扩散运动:通过扩散模型生成文本引导的3D人体运动
摘要

我们提出了一种简单而新颖的方法,用于从复杂的自然语言句子中生成三维人体运动,这些句子描述了各类动作在速度、方向及组合上的多样性。与现有采用经典生成架构的方法不同,我们首次将去噪扩散概率模型(Denoising Diffusion Probabilistic Model)应用于该任务,在文本引导下合成多样化的人体运动结果。该扩散模型通过一系列去噪步骤,借助马尔可夫过程将白噪声逐步转化为具有结构的三维运动,并通过优化变分下界实现高效训练。为实现文本条件下的图像生成目标,我们在训练过程中采用无分类器引导(classifier-free guidance)策略,将文本嵌入有效融合进模型。实验结果表明,我们的模型在HumanML3D测试集上取得了具有竞争力的定量性能,能够生成更具视觉自然性和多样性的运动样本。此外,通过实验进一步验证了该模型具备对未见文本指令进行零样本运动生成的能力。