2 个月前
使用CHiME-4挑战赛数据构建最先进的远场语音识别系统,并设置语音增强基线
Szu-Jui Chen; Aswin Shanmugam Subramanian; Hainan Xu; Shinji Watanabe

摘要
本文描述了一种新的基线系统,用于在CHiME-4挑战中进行自动语音识别(ASR),旨在通过提供以下两个方面促进语音处理社区中噪声环境下的ASR发展:1)一种简化的单系统,其性能可与挑战中的复杂顶级系统相媲美;2)通过Kaldi语音识别工具包的主要仓库提供的公开且可复现的实现方案。所提出的系统采用了广义特征值波束形成技术,并结合双向长短时记忆(LSTM)掩码估计。我们还提出使用基于最大互信息无格子版本(LF-MMI)训练的时间延迟神经网络(TDNN),该网络利用增强后的六麦克风数据及波束形成后的数据进行训练。最后,我们使用LSTM语言模型进行格子和N最佳重评分。最终系统在6通道赛道的实际测试集中实现了2.74%的词错误率(WER),这在挑战中排名第二。此外,所提出的基线实现方案包括四种不同的语音增强评估指标:短时客观可懂度指标(STOI)、扩展STOI(eSTOI)、感知语音质量评估(PESQ)和语音失真比(SDR),适用于模拟测试集。因此,该实现方案还为使用这些性能指标进行语音增强研究提供了实验平台。