HyperAIHyperAI

Command Palette

Search for a command to run...

实现会话语音识别的人类水平性能

W. Xiong J. Droppo X. Huang F. Seide M. Seltzer A. Stolcke D. Yu G. Zweig

摘要

自1990年代Switchboard语料库发布以来,会话语音识别一直被视为一项标杆性的语音识别任务。本文中,我们测量了广泛使用的NIST 2000测试集上的人类错误率,并发现我们的最新自动化系统已达到人类水平。对于数据中的Switchboard部分(即新认识的人对指定话题进行讨论),专业转录员的错误率为5.9%;而对于CallHome部分(即朋友和家人之间的自由对话),错误率为11.3%。在这两部分中,我们的自动化系统均达到了新的技术水平,并略微超过了人类基准,分别实现了5.8%和11.0%的错误率。我们系统的性能关键在于采用了多种卷积神经网络和LSTM声学模型架构,结合了一种新颖的空间平滑方法和无格MMI声学训练(lattice-free MMI acoustic training)、多种循环神经网络语言建模方法以及系统的组合使用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供