摘要

我们提出 Espresso，这是一个基于深度学习框架 PyTorch 以及流行的神经机器翻译工具包 fairseq 构建的开源、模块化且可扩展的端到端神经自动语音识别（ASR）工具包。Espresso 支持跨 GPU 和计算节点的分布式训练，并集成了语音识别中常用的多种解码方法，其中包括前瞻性的基于词的语言模型融合技术，该技术已通过一个高效且并行化的解码器实现。在无需数据增强的情况下，Espresso 在 WSJ、LibriSpeech 和 Switchboard 等数据集上的端到端 ASR 性能达到当前领先水平，且其解码速度比同类系统（如 ESPnet）快 4 到 11 倍。

源 PDF