11 天前

InterGen:基于扩散模型的复杂交互下多人类运动生成

Han Liang, Wenqian Zhang, Wenxuan Li, Jingyi Yu, Lan Xu
InterGen:基于扩散模型的复杂交互下多人类运动生成
摘要

近年来,基于扩散模型的人体动作生成技术取得了显著进展,能够生成高度逼真的单人动作。然而,现有方法大多忽视了多人之间的交互行为。本文提出InterGen,一种基于扩散模型的有效方法,将人与人之间的交互关系融入动作生成过程,仅需文本引导即可让普通用户自定义高质量的双人交互动作。首先,我们构建了一个多模态数据集,命名为InterHuman。该数据集包含约1.07亿帧的多样化双人交互动作,涵盖精确的骨骼运动信息以及23,337条自然语言描述,为交互动作建模提供了丰富且高质量的数据支持。在算法层面,我们针对双人交互场景对运动扩散模型进行了精心设计。为应对交互过程中人物身份对称性问题,我们提出两个基于Transformer的协作去噪器(cooperative denoisers),通过显式共享参数,并引入互注意力机制(mutual attention mechanism)以进一步关联两个去噪过程,增强交互建模能力。此外,我们提出一种新颖的运动输入表示方法,在世界坐标系下显式建模两名表演者之间的全局关系。为进一步编码空间关系,我们设计了两个新型正则化项,并在训练过程中引入相应的阻尼机制(damping scheme),以提升模型对空间约束的建模能力。大量实验验证了InterGen在生成效果与泛化能力方面的优越性。结果表明,相较于现有方法,InterGen能够生成更加多样且更具表现力的双人交互动作,同时支持多种下游应用,为复杂人机交互场景下的动作生成提供了有力工具。

InterGen:基于扩散模型的复杂交互下多人类运动生成 | 最新论文 | HyperAI超神经