Command Palette
Search for a command to run...
弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer
弥合语义与运动学条件:基于 Diffusion 的离散运动 Tokenizer
Chenyang Gu Mingyuan Zhang Haozhe Xie Zhongang Cai Lei Yang Ziwei Liu
摘要
现有的运动生成方法主要遵循两种范式:连续扩散模型擅长运动学控制,而基于离散 token 的生成器则在语义条件化方面表现优异。为了结合两者的优势,我们提出了一个三阶段框架,包含条件特征提取(感知)、离散 token 生成(规划)以及基于扩散的运动合成(控制)。该框架的核心是 MoTok,这是一种基于扩散的离散运动 tokenizer,它通过将运动恢复任务委托给扩散解码器,实现了语义抽象与细粒度重构的解耦,从而在保持运动保真度的同时生成了紧凑的单层 token。针对运动学条件,粗粒度约束在规划阶段指导 token 生成,而细粒度约束则通过基于扩散的优化在控制阶段强制执行。这种设计有效防止了运动学细节干扰语义 token 的规划。在 HumanML3D 数据集上的实验表明,与 MaskControl 相比,我们的方法显著提升了可控性与保真度,同时仅使用了六分之一的 token 数量;轨迹误差从 0.72 cm 降低至 0.08 cm,FID 从 0.083 降至 0.029。不同于以往在强运动学约束下性能退化的方法,我们的方法能够进一步提升保真度,将 FID 从 0.033 降低至 0.014。
一句话总结
南洋理工大学与香港中文大学的研究人员提出了 MoTok,这是一种基于扩散的离散运动令牌化器,它将语义抽象与运动学重建解耦,从而在人体运动生成中实现紧凑的令牌化和卓越的轨迹控制。
主要贡献
- 本文提出了一种用于可控运动生成的三阶段“感知 - 规划 - 控制”范式,将自回归规划器与离散扩散规划器统一在单一接口下,以分离高层规划与底层运动学。
- 这项工作介绍了 MoTok,一种基于扩散的离散运动令牌化器,通过将运动恢复委托给扩散解码器,将语义抽象与细粒度重建解耦,从而实现了具有显著降低令牌预算的紧凑单层令牌。
- 开发了一种由粗到细的条件注入方案,在令牌规划阶段注入运动学信号作为粗略约束,并在扩散去噪阶段强制执行细粒度约束。HumanML3D 上的实验表明,该方法提高了可控性和保真度,同时将轨迹误差从 0.72 厘米降低至 0.08 厘米。
引言
人体运动生成对于动画、机器人和具身智能体等应用至关重要,但现有方法难以平衡高层语义意图与细粒度运动学控制。先前的基于令牌的方法往往将语义抽象与底层运动细节纠缠在一起,需要高令牌率,并且在应用强运动学约束时会导致性能下降。作者提出了一种以 MoTok 为核心的三阶段“感知 - 规划 - 控制”框架,MoTok 是一种基于扩散的离散运动令牌化器,它将语义规划与运动重建解耦。通过将细粒度恢复委托给扩散解码器,并在各阶段以由粗到细的方式应用运动学约束,该方法实现了紧凑的单层令牌化,同时显著提高了可控性和运动保真度。
方法
作者提出了一种统一的运动生成框架,结合了连续扩散模型在运动学控制方面的优势,以及离散基于令牌的生成器在语义条件化方面的优势。该方法遵循下图所示的三阶段“感知 - 规划 - 控制”范式。

该框架的核心是 MoTok,一种基于扩散的离散运动令牌化器。与直接根据离散码解码连续运动的传统 VQ-VAE 令牌化器不同,MoTok 将表示分解为紧凑的离散码序列和用于细粒度重建的扩散解码器。这种设计使得离散令牌可以专注于语义结构,而将底层细节卸载给扩散过程。
有关 MoTok 令牌化器的具体组件和统一生成流水线的详细信息,请参阅下方的详细架构图。

MoTok 令牌化器由三个主要组件组成。首先,卷积编码器 E(⋅) 通过渐进式时间下采样从输入运动序列 θ1:T 中提取潜在特征:
h1:N=E(θ1:T),h1:N∈RN×d,其中 N 是压缩后的序列长度,d 是潜在维度。其次,矢量量化器 Q(⋅) 通过在共享码本 C 中寻找最近邻条目,将这些潜在特征映射为离散令牌序列 z1:N:
zn=argk∈{1,...,K}min∥hn−ck∥22,qn=czn.第三,解码器不采用直接回归,而是采用条件扩散模型。卷积解码器 D(⋅) 首先将量化后的潜在特征 q1:N 上采样为每帧条件信号 s1:T。随后,神经去噪器 fϕ 基于 s1:T 的条件,从噪声输入 xt 中重建干净运动 x^0:
x^0=fϕ(xt,t,s1:T).这种基于扩散的解码为在重建阶段强制执行细粒度约束提供了自然接口。
统一的有条件生成流水线通过共享的条件接口支持离散扩散和自回归规划器。条件分为全局条件 cg(例如文本描述)和局部条件 c1:Ts(例如目标轨迹)。全局条件被编码为序列级特征 Mg,而局部条件被编码为与令牌对齐的特征序列 M1:Ns。
在离散令牌空间进行规划时,这些条件被注入到基于 Transformer 的生成器中。对于离散扩散规划,构建一个令牌嵌入序列,其中全局条件占据第一个位置,局部条件特征通过加法融合添加到运动令牌位置。对于自回归规划,全局条件同样占据第一个位置,局部条件与前面的令牌位置对齐以保持时间因果性。
最后,在扩散解码阶段强制执行控制。生成离散令牌后,将其解码为条件序列 s1:T。为了确保遵循局部运动学约束,在去噪过程中优化辅助控制损失 Lctrl。在每一步扩散步骤 k,运动估计 x^k 通过梯度下降进行细化:
x^k←x^k−η∇x^kLctrl(x^k,c1:Ts),其中 η 控制细化强度。该机制使系统能够实现精确的底层控制,而无需让离散规划器承担高频细节的负担。
实验
- 在 HumanML3D 和 KIT-ML 上进行的可控运动生成实验证实,即使使用显著更少的令牌,MoTok 在轨迹对齐和运动真实性方面也优于基线方法。
- 文本到运动生成测试确认,MoTok 在降低令牌预算的情况下仍能产生更高质量的运动,具有更低的 FID 分数,证明了其高效的语义规划能力。
- 消融研究表明,在噪声生成条件下,基于扩散的解码器比卷积解码器更能恢复细粒度的运动细节。
- 配置分析显示,适度的时间下采样和特定的核大小优化了重建质量与规划稳定性之间的平衡。
- 双路径条件实验证明,在生成器和解码器中同时注入底层控制信号对于实现高保真度和精确的约束遵循至关重要。
- 两阶段训练评估表明,MoTok 令牌编码了更丰富的语义信息,并且比标准 VQ-VAE 方法允许更好的细节恢复。
- 效率比较突出显示,MoTok 生成序列的速度明显快于竞争方法,同时保持了高性能。