2 个月前

GestureLSM:基于潜在捷径的共言语手势生成与时空建模

Liu, Pinxin ; Song, Luchuan ; Huang, Junhua ; Liu, Haiyang ; Xu, Chenliang
GestureLSM:基于潜在捷径的共言语手势生成与时空建模
摘要

基于语音信号生成全身人类手势在质量和速度方面仍面临挑战。现有的方法通常分别对身体的不同部位(如躯干、腿部和手部)进行建模,这导致无法捕捉这些部位之间的空间交互,从而产生不自然且脱节的动作。此外,它们的自回归/扩散模型管道由于需要数十个推理步骤而表现出生成速度较慢的问题。为了解决这两个挑战,我们提出了一种基于流匹配的方法——GestureLSM,用于结合空间-时间建模的共说话手势生成。我们的方法:i) 通过空间和时间注意力显式地建模标记化身体区域之间的交互,以生成连贯的全身手势;ii) 引入流匹配来显式建模潜在速度空间,从而实现更高效的采样。为了克服流匹配基线性能不佳的问题,我们在训练过程中提出了潜在捷径学习(latent shortcut learning)和贝塔分布时间戳采样(beta distribution time stamp sampling),以提高手势合成的质量并加速推理过程。通过结合空间-时间建模和改进的流匹配框架,GestureLSM 在 BEAT2 数据集上实现了最先进的性能,并显著减少了与现有方法相比的推理时间,突显了其在实际应用中增强数字人和具身代理的潜力。项目页面:https://andypinxinliu.github.io/GestureLSM