17 天前

Espresso:一个快速的端到端神经语音识别工具包

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
Espresso:一个快速的端到端神经语音识别工具包
摘要

我们提出 Espresso,这是一个基于深度学习框架 PyTorch 以及流行的神经机器翻译工具包 fairseq 构建的开源、模块化且可扩展的端到端神经自动语音识别(ASR)工具包。Espresso 支持跨 GPU 和计算节点的分布式训练,并集成了语音识别中常用的多种解码方法,其中包括前瞻性的基于词的语言模型融合技术,该技术已通过一个高效且并行化的解码器实现。在无需数据增强的情况下,Espresso 在 WSJ、LibriSpeech 和 Switchboard 等数据集上的端到端 ASR 性能达到当前领先水平,且其解码速度比同类系统(如 ESPnet)快 4 到 11 倍。