
摘要
我们提出MoMask,一种面向文本驱动三维人体动作生成的新型掩码建模框架。在MoMask中,采用分层量化机制,将人体动作表示为具有高保真细节的多层离散动作标记(motion tokens)。从底层开始,通过向量量化获得一系列动作标记,并在后续各层级中依次提取并存储高阶残差标记。随后,框架引入两个独立的双向Transformer:针对底层动作标记,设计了掩码Transformer(Masked Transformer),在训练阶段根据文本输入预测被随机掩码的动作标记;在生成阶段(即推理阶段),从空序列出发,掩码Transformer通过迭代方式逐步填充缺失的标记;随后,残差Transformer基于当前层的输出,逐步学习预测下一层的标记。大量实验表明,MoMask在文本到动作生成任务上显著优于现有最先进方法:在HumanML3D数据集上,其FID指标达到0.045(相较T2M-GPT的0.141大幅降低);在KIT-ML数据集上,FID为0.228(相较基线方法的0.514显著提升)。此外,MoMask无需额外微调即可无缝应用于相关任务,例如文本引导的时序补全(text-guided temporal inpainting)。