2 个月前

面向方向的神经语音增强与识别在真实多方对话环境中的联合自适应

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii
面向方向的神经语音增强与识别在真实多方对话环境中的联合自适应
摘要

本文描述了一种用于增强现实头戴设备的嘈杂语音识别技术,该设备旨在帮助在真实的多方对话环境中进行口头交流。目前在模拟环境中积极研究的主要方法是基于深度神经网络(DNN)的监督训练,顺序执行语音增强和自动语音识别(ASR)。然而,在我们的任务中,由于训练条件与测试条件之间的不匹配以及用户的头部运动,预先训练的系统无法正常工作。为了仅增强目标说话人的语音,我们使用了基于DNN的语音掩模估计器的波束形成技术,该技术可以自适应地提取相对于头部特定方向的语音成分。我们提出了一种半监督自适应方法,在运行时联合更新掩模估计器和ASR模型,利用带有真实转录的干净语音信号和带有高置信度估计转录的嘈杂语音信号。与最先进的远场语音识别系统相比,实验结果表明所提出的方法显著提高了ASR性能。