Speech2AffectiveGestures:基于生成对抗性情感表达学习的伴随言语手势合成

我们提出了一种生成对抗网络(Generative Adversarial Network, GAN),用于合成与语音同步的上半身手势的三维姿态序列,并赋予其恰当的情感表达。该网络由两个核心组件构成:生成器(generator)和判别器(discriminator)。生成器从输入语音与初始姿态共同编码的联合嵌入空间中生成手势序列;判别器则用于区分合成的姿态序列与真实三维姿态序列之间的差异。在生成器中,我们采用两个独立的编码器分别处理输入语音的梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)和文本转录内容,以学习目标情感及其对应的情感线索。为提取姿态序列中的情感特征,我们设计了一种基于多尺度时空图卷积(multi-scale spatial-temporal graph convolutions)的情感编码器,将三维姿态序列映射为潜在的、基于姿态的情感特征表示。该情感编码器被同时应用于生成器与判别器:在生成器中,它从初始姿态中学习情感特征,以指导手势的合成;在判别器中,它用于强制生成的姿态序列包含与语音内容相匹配的恰当情感表达。我们在两个基准手势合成数据集上进行了全面评估,分别为TED手势数据集(TED Gesture Dataset)和GENEA挑战赛2020数据集(GENEA Challenge 2020 Dataset)。与现有最佳基线方法相比,我们的方法在各项指标上均取得显著提升:平均关节误差(mean absolute joint error)降低10%–33%,平均加速度差异(mean acceleration difference)减少8%–58%,Fréchet手势距离(Fréchet Gesture Distance)下降21%–34%。此外,我们还开展了用户研究,结果显示,相较于当前最优基线方法,约15.28%的参与者认为我们生成的手势更具可信度,约16.32%的参与者认为生成手势的情感表达与语音内容更加契合,具有更恰当的情感一致性。