7 个月前

摘要

自1990年代Switchboard语料库发布以来，会话语音识别一直被视为一项标杆性的语音识别任务。本文中，我们测量了广泛使用的NIST 2000测试集上的人类错误率，并发现我们的最新自动化系统已达到人类水平。对于数据中的Switchboard部分（即新认识的人对指定话题进行讨论），专业转录员的错误率为5.9%；而对于CallHome部分（即朋友和家人之间的自由对话），错误率为11.3%。在这两部分中，我们的自动化系统均达到了新的技术水平，并略微超过了人类基准，分别实现了5.8%和11.0%的错误率。我们系统的性能关键在于采用了多种卷积神经网络和LSTM声学模型架构，结合了一种新颖的空间平滑方法和无格MMI声学训练（lattice-free MMI acoustic training）、多种循环神经网络语言建模方法以及系统的组合使用。

源 PDF