17 天前
Espresso:一个快速的端到端神经语音识别工具包
Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur

摘要
我们提出 Espresso,这是一个基于深度学习框架 PyTorch 以及流行的神经机器翻译工具包 fairseq 构建的开源、模块化且可扩展的端到端神经自动语音识别(ASR)工具包。Espresso 支持跨 GPU 和计算节点的分布式训练,并集成了语音识别中常用的多种解码方法,其中包括前瞻性的基于词的语言模型融合技术,该技术已通过一个高效且并行化的解码器实现。在无需数据增强的情况下,Espresso 在 WSJ、LibriSpeech 和 Switchboard 等数据集上的端到端 ASR 性能达到当前领先水平,且其解码速度比同类系统(如 ESPnet)快 4 到 11 倍。