17 天前

韵律手势生成器:基于分层神经嵌入的韵律感知协同言语手势合成

Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu
韵律手势生成器:基于分层神经嵌入的韵律感知协同言语手势合成
摘要

在构建具身化人工智能代理(artificial embodied agent)的过程中,自动生成逼真的伴随言语手势(co-speech gestures)已成为一项日益重要且极具挑战性的任务。以往的方法主要采用端到端的方式生成手势,但由于语音与手势之间复杂而微妙的协调关系,导致难以有效挖掘出清晰的节奏结构与语义信息。为此,我们提出一种新颖的伴随言语手势生成方法,在节奏与语义两个方面均取得了令人信服的效果。在节奏建模方面,我们的系统引入了一套稳健的基于节奏的分割流程,显式地保证语音与手势之间的时序一致性。在手势语义建模方面,我们基于语言学理论,设计了一种机制,能够有效解耦语音与动作的低层和高层神经嵌入表示:高层嵌入对应语义内容,而低层嵌入则捕捉细微的动态变化。最后,我们建立了语音与动作在层次化嵌入之间的对应关系,从而实现兼具节奏感知与语义感知的手势合成。通过现有客观指标、新提出的节奏性评估指标以及人工反馈的综合评估,实验结果表明,我们的方法在各项指标上均显著优于当前最先进的系统。