11 天前

基于流匹配的统一语音与手势合成

Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter
基于流匹配的统一语音与手势合成
摘要

随着文本转语音技术在朗读任务中实现了令人瞩目的自然度,学术界对语音与非语言交际行为(如即兴言语及其伴随的身体动作)的多模态合成兴趣日益增长。本文提出了一种新颖的统一架构,能够从文本中联合生成语音声学特征与基于骨骼的三维手势动作,该架构采用最优传输条件流匹配(OT-CFM)进行训练。相较于先前的最先进方法,所提出的架构更为简洁,内存占用更小,且能够有效建模语音与手势之间的联合分布,实现两种模态在单一过程中的一体化生成。同时,新的训练机制显著提升了合成质量,并在远少于以往步骤(网络评估次数)的情况下达成更优效果。主观评估实验(包括单模态与多模态测试)表明,与现有基准相比,本文方法在语音自然度、手势人形度以及跨模态适配性方面均取得显著提升。更多视频示例与代码请访问:https://shivammehta25.github.io/Match-TTSG/。

基于流匹配的统一语音与手势合成 | 最新论文 | HyperAI超神经