6 个月前

摘要

在多模态人工智能代理的构建中，生成逼真且符合语境的伴随言语手势是一项具有挑战性但日益重要的任务。以往的方法主要致力于建立手势表示与生成动作之间的直接映射关系，尽管生成的手势看似自然，但在人类评估中往往缺乏说服力。本文提出一种新方法，通过引入带有量化流程的生成对抗网络（GAN）对部分手势序列进行预训练。所得的码本向量在本框架中同时作为输入与输出，构成手势生成与重建的基础。与直接映射至向量表示不同，该框架通过学习潜在空间的映射关系，能够生成高度逼真且富有表现力的手势，精准还原人类运动与行为特征，同时有效避免生成过程中的伪影问题。我们通过与现有主流手势生成方法以及现有真实人类行为数据集进行对比，对所提方法进行了全面评估，并进一步开展了消融实验以验证其有效性。实验结果表明，本方法在性能上显著优于当前最先进的技术，生成的手势在人类感知中部分已难以与真实人类手势相区分。相关数据处理流程与生成框架已公开发布，供学术界和工业界使用。

源 PDF