6 个月前

摘要

自然且富有表现力的人体运动生成是计算机动画领域的终极目标。这一任务极具挑战性，原因在于运动形式的多样性、人类对运动细节的高度感知敏感性，以及准确描述运动本身的困难。因此，当前的生成方法要么质量较低，要么在表现力上存在局限。扩散模型（diffusion models）在其他领域已展现出卓越的生成能力，因其具备“多对多”的生成特性，被视为人体运动生成的有力候选方案。然而，这类模型通常资源消耗大，且难以精确控制。本文提出了一种名为运动扩散模型（Motion Diffusion Model, MDM）的生成模型，该模型基于分类器自由的扩散框架，并针对人体运动领域进行了精心调整。MDM采用Transformer架构，融合了运动生成领域的重要研究成果。一个关键的设计选择是在每一步扩散过程中预测运动样本本身，而非噪声。这一设计使得能够有效引入成熟的几何损失函数，例如对运动中足部接触位置与速度的约束损失。我们证明，MDM是一种通用性强的生成框架，支持多种条件输入方式和不同的生成任务。实验表明，尽管训练过程仅需轻量级计算资源，MDM在主流文本到运动（text-to-motion）和动作到运动（action-to-motion）基准测试中均取得了当前最优的性能表现。相关项目页面见：https://guytevet.github.io/mdm-page/。

源 PDF