6 个月前

摘要

在计算机视觉领域，基于文本的人体动作生成具有重要意义，同时也面临严峻挑战。然而，现有方法通常仅能生成确定性或模糊的动作序列，难以有效控制动作在时间与空间上的关系，以精确匹配给定的文本描述。为此，本文提出一种细粒度的人体动作生成方法，能够生成高质量、条件可控的动作序列，并支持对文本描述的精确建模。本方法包含两个核心组件：1）基于语言结构的辅助模块，用于构建准确且完整的语言特征，充分挖掘文本信息；2）上下文感知的渐进式推理模块，通过浅层与深层图神经网络分别学习局部与全局的语义语言特征，实现多阶段推理。实验结果表明，所提方法在HumanML3D和KIT测试集上均优于现有的文本驱动动作生成方法，生成的动作在视觉上与文本条件具有更强的一致性。

源 PDF