6 个月前

摘要

我们研究了一个具有挑战性的任务——条件化人体运动生成，该任务旨在根据多种条件输入（如动作类别或文本描述）生成符合实际的人体运动序列。由于人体运动本身具有高度多样性，且其分布与条件模态（如自然语言中的文本描述）存在显著差异，因此难以学习从目标条件模态到人体运动序列之间的有效概率映射。此外，来自动作捕捉系统的原始运动数据往往在时间序列上存在冗余，并包含噪声；若直接对原始运动序列与条件模态的联合分布进行建模，将带来巨大的计算开销，并可能因捕捉噪声引入生成伪影。为学习更优的人体运动序列表示，我们首先设计了一种强大的变分自编码器（Variational AutoEncoder, VAE），从而为每段人体运动序列获得一个具有代表性且维度较低的潜在编码。随后，我们并未采用扩散模型直接建立原始运动序列与条件输入之间的关联，而是将扩散过程引入运动潜在空间中。我们提出的基于运动潜在空间的扩散模型（Motion Latent-based Diffusion model, MLD）能够生成符合给定条件输入的生动自然的运动序列，同时在训练与推理阶段均显著降低了计算开销。在多种人体运动生成任务上的大量实验表明，我们的MLD在性能上显著优于现有最先进方法，且在原始运动序列上的运行速度比以往的扩散模型快两个数量级。

源 PDF