16 天前
Fg-T2M:基于扩散模型的细粒度文本驱动人体运动生成
Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang

摘要
在计算机视觉领域,基于文本的人体动作生成具有重要意义,同时也面临严峻挑战。然而,现有方法通常仅能生成确定性或模糊的动作序列,难以有效控制动作在时间与空间上的关系,以精确匹配给定的文本描述。为此,本文提出一种细粒度的人体动作生成方法,能够生成高质量、条件可控的动作序列,并支持对文本描述的精确建模。本方法包含两个核心组件:1)基于语言结构的辅助模块,用于构建准确且完整的语言特征,充分挖掘文本信息;2)上下文感知的渐进式推理模块,通过浅层与深层图神经网络分别学习局部与全局的语义语言特征,实现多阶段推理。实验结果表明,所提方法在HumanML3D和KIT测试集上均优于现有的文本驱动动作生成方法,生成的动作在视觉上与文本条件具有更强的一致性。