17 天前
开源德语远场语音识别:语料库与声学模型
{and Chris Biemann, Max Mühlhäuser, Stefan Radomski, Evandro Gouvea, Arvid Lange, Benjamin Milde, Stephan Radeck-Arneth}

摘要
我们提出一个全新的、免费开放的德语远场语音识别语料库,并报告了基于该语料库训练的两款开源语音识别器的独立说话人词错误率(WER)结果。该语料库在受控环境下录制,使用三种不同麦克风,录制距离为一米。语料库包含180位不同说话人,总计36小时的音频数据。我们展示了使用开源工具包Kaldi(WER为20.5%)和PocketSphinx(WER为39.6%)的识别结果,从而为德语远场语音识别提供了完整的开源解决方案。