2 个月前

人类和机器对英语会话电话语音的识别

George Saon; Gakuto Kurata; Tom Sercu; Kartik Audhkhasi; Samuel Thomas; Dimitrios Dimitriadis; Xiaodong Cui; Bhuvana Ramabhadran; Michael Picheny; Lynn-Li Lim; Bergul Roomi; Phil Hall
人类和机器对英语会话电话语音的识别
摘要

最困难的语音识别任务之一是准确识别人与人之间的交流。近年来,深度学习的发展在代表性的Switchboard对话语料库上取得了显著的语音识别改进。几年前还高达14%的词错误率已降至8.0%,随后降至6.6%,最近更是降至5.8%,目前被认为已经接近人类的表现水平。这引发了两个问题——什么是人类表现,以及我们还能将语音识别错误率降低到什么程度?微软最近的一篇论文指出,我们可能已经达到了人类的表现水平。为了验证这一说法,我们在两个对话任务上进行了独立的人类表现测量,发现人类表现可能比之前报告的结果要好得多,从而为研究社区设定了一个更加艰巨的目标。此外,我们还报告了自己在该领域的努力成果,介绍了一套声学和语言建模技术,将我们的英语会话电话LVCSR系统在Hub5 2000评估中的Switchboard/CallHome子集上的词错误率降低至5.5%/10.3%,这至少在撰写本文时是一个新的性能里程碑(尽管尚未达到我们认为的人类表现水平!)。在声学建模方面,我们采用了三种模型的得分融合:一种具有多个特征输入的LSTM模型、第二种通过说话者对抗多任务学习训练的LSTM模型以及第三种包含25个卷积层和时间膨胀卷积的残差网络(ResNet)。在语言建模方面,我们使用了词级和字符级LSTM模型以及卷积WaveNet风格的语言模型。