17 天前

基于文本、音频与说话人身份三模态上下文的语音与手势生成

Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee, Jaehong Kim, Geehyuk Lee
基于文本、音频与说话人身份三模态上下文的语音与手势生成
摘要

对于具备类人特征的智能体,如虚拟形象和社交机器人而言,在言语交流过程中恰当地做出手势,是提升人机交互体验的关键因素。伴随言语的手势能够显著增强交互的自然性,使智能体显得更加生动鲜活。然而,由于人类手势行为具有高度的模糊性和个体差异性,难以准确建模,因此生成类人化手势仍面临挑战。现有的数据驱动方法试图通过模仿人类示范来学习手势生成能力,但手势本身的主观性和多样性严重制约了学习效果。本文提出一种自动手势生成模型,该模型利用语音、文本与说话人身份的多模态上下文信息,实现稳定且自然的手势生成。通过融合多模态上下文信息与对抗性训练机制,所提出的模型能够生成与语音内容和节奏高度匹配、具有类人特征的手势。此外,本文还引入了一种全新的手势生成模型定量评估指标。基于该指标的实验以及主观人类评估结果表明,所提出的模型在性能上优于现有的端到端手势生成方法。进一步实验验证了该模型在受限上下文场景下对合成语音的适应能力,并展示了通过在从多说话人视频中学习得到的风格嵌入空间中指定不同说话人身份,可为同一段语音生成具有不同风格的手势。所有代码与数据均已开源,项目地址为:https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context。