2 个月前
实现会话语音识别的人类水平性能
W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

摘要
自1990年代Switchboard语料库发布以来,会话语音识别一直被视为一项标杆性的语音识别任务。本文中,我们测量了广泛使用的NIST 2000测试集上的人类错误率,并发现我们的最新自动化系统已达到人类水平。对于数据中的Switchboard部分(即新认识的人对指定话题进行讨论),专业转录员的错误率为5.9%;而对于CallHome部分(即朋友和家人之间的自由对话),错误率为11.3%。在这两部分中,我们的自动化系统均达到了新的技术水平,并略微超过了人类基准,分别实现了5.8%和11.0%的错误率。我们系统的性能关键在于采用了多种卷积神经网络和LSTM声学模型架构,结合了一种新颖的空间平滑方法和无格MMI声学训练(lattice-free MMI acoustic training)、多种循环神经网络语言建模方法以及系统的组合使用。