17 天前

Audio2Gestures:基于条件变分自编码器从语音音频生成多样化手势

Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao
Audio2Gestures:基于条件变分自编码器从语音音频生成多样化手势
摘要

从语音音频生成对话式手势具有挑战性,主要原因在于音频与身体动作之间存在固有的“一对多”映射关系。传统的卷积神经网络(CNN)或循环神经网络(RNN)通常假设“一对一”映射,因此在推理阶段往往倾向于预测所有可能目标动作的平均值,导致生成的动作显得平淡乏味。为解决这一问题,我们提出一种新型的条件变分自编码器(Conditional Variational Autoencoder, VAE),通过将跨模态隐变量编码分解为共享编码和动作特异性编码,显式建模“一对多”的音频到动作映射关系。其中,共享编码主要捕捉音频与动作之间的强相关性(如音频节拍与动作节拍的同步),而动作特异性编码则独立于音频,用于表征多样化的动作信息。然而,将隐变量编码拆分为两部分会带来训练上的困难。为此,我们设计了一种映射网络,结合随机采样机制,并引入松弛化动作损失、自行车约束(bicycle constraint)以及多样性损失等多种技术,以更有效地训练该VAE模型。在三维和二维动作数据集上的实验结果表明,与当前最先进的方法相比,我们的方法在定性和定量层面均能生成更加真实且多样化的动作序列。最后,我们展示了该方法可轻松应用于生成具有用户指定动作片段的时间序列运动。代码及更多实验结果详见:https://jingli513.github.io/audio2gestures。