6 个月前

摘要

基于文本驱动的动作生成在扩散模型兴起的背景下取得了显著进展。然而，现有方法在生成与细粒度描述相对应的复杂动作序列方面仍面临挑战，难以准确刻画详细且精确的时空动作。这种细粒度控制能力的缺失限制了动作生成技术的广泛应用。为应对上述问题，我们提出 FineMoGen——一种基于扩散模型的动作生成与编辑框架，能够根据用户指令合成具有精细时空结构的动作。具体而言，FineMoGen 在扩散模型基础上引入了一种新颖的 Transformer 架构，称为时空混合注意力（Spatio-Temporal Mixture Attention, SAMI）。SAMI 从两个方面优化全局注意力模板的生成：1）显式建模时空组合的约束条件；2）利用稀疏激活的专家混合（Mixture-of-Experts）机制，自适应地提取细粒度特征。为推动该细粒度动作生成任务的大规模研究，我们构建了 HuMMan-MoGen 数据集，包含 2,968 个视频和 102,336 条细粒度时空描述。大量实验结果表明，FineMoGen 在动作生成质量方面显著优于当前最先进的方法。尤为突出的是，借助现代大型语言模型（LLM），FineMoGen 还实现了零样本动作编辑能力，能够忠实响应细粒度指令对动作序列进行精确操控。项目主页：https://mingyuan-zhang.github.io/projects/FineMoGen.html

源 PDF