16 天前

随心而动:基于分层语义图的运动扩散模型细粒度控制

随心而动:基于分层语义图的运动扩散模型细粒度控制
摘要

大多数基于文本的人体动作生成方法采用序列建模框架(如Transformer),自动且隐式地提取句子级别的文本表征,用于人体动作合成。然而,这些紧凑的文本表征往往过度强调动作名称,忽视了其他重要语义属性,且缺乏细粒度细节,难以有效指导具有细微差异的动作生成。为此,本文提出一种分层语义图(Hierarchical Semantic Graphs)方法,以实现对动作生成过程的细粒度控制。具体而言,我们将动作描述解耦为包含三个层级的分层语义图:动作整体(motion)、具体动作(action)和细节特征(specifics)。这种从全局到局部的结构设计,有助于全面理解动作描述,并实现对生成动作的精细化调控。相应地,为充分利用分层语义图的粗粒度到细粒度拓扑特性,我们将文本到动作的扩散过程分解为三个语义层级:分别对应于捕捉整体动作趋势、局部动作行为以及动作细节特征。在两个基准人体动作数据集(HumanML3D 和 KIT)上的大量实验表明,所提方法在性能上均显著优于现有方法,充分验证了其有效性。更令人鼓舞的是,通过调整分层语义图中边的权重,我们的方法能够持续优化生成的动作,展现出在该领域具有深远影响的潜力。相关代码与预训练权重已开源,地址为:https://github.com/jpthu17/GraphMotion。

随心而动:基于分层语义图的运动扩散模型细粒度控制 | 最新论文 | HyperAI超神经