
摘要
在我们之前的研究中,我们已经证明了单头注意力编码器-解码器模型能够在对话语音识别中达到最先进的结果。本文中,我们在Switchboard 300和2000数据集上进一步提高了这些结果。通过使用改进的优化器、说话人向量嵌入以及替代的语音表示方法,我们将LSTM系统在Switchboard-300上的识别错误率相对降低了4%。通过概率比方法对解码器模型进行补偿,可以更有效地集成外部语言模型,我们在Hub5'00的SWB和CHM部分分别报告了5.9%和11.5%的词错误率(WER),所使用的LSTM模型非常简单。我们的研究还考虑了最近提出的Conformer模型以及更为先进的基于自注意力机制的语言模型。总体而言,Conformer的表现与LSTM相似;然而,它们的组合以及使用改进的语言模型进行解码,在Switchboard-300上达到了新的记录,SWB和CHM部分的词错误率分别为5.0%和10.0%。我们的发现也在Switchboard-2000数据集上得到了验证,并报告了新的最先进水平,实际上已达到该基准测试的极限。