17 天前

fairseq S2T:基于 fairseq 的快速语音到文本建模

Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino
fairseq S2T:基于 fairseq 的快速语音到文本建模
摘要

我们推出了 fairseq S2T,这是 fairseq 框架针对语音到文本(Speech-to-Text, S2T)建模任务(如端到端语音识别和语音到文本翻译)的扩展。该工具遵循 fairseq 在可扩展性与可扩展性方面的严谨设计原则。我们提供了从数据预处理、模型训练到离线(在线)推理的完整端到端工作流程。fairseq S2T 实现了当前最先进的基于 RNN、Transformer 以及 Conformer 的模型,并开源了详细的训练方案(training recipes)。此外,fairseq 的机器翻译模型与语言模型可无缝集成至 S2T 工作流中,支持多任务学习或迁移学习。fairseq S2T 的文档与示例代码详见:https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text。

fairseq S2T:基于 fairseq 的快速语音到文本建模 | 最新论文 | HyperAI超神经