17 天前

Conformer:用于语音识别的卷积增强型 Transformer

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang
Conformer:用于语音识别的卷积增强型 Transformer
摘要

近年来,基于Transformer和卷积神经网络(CNN)的模型在自动语音识别(ASR)任务中取得了显著进展,性能已超越传统的循环神经网络(RNN)。其中,Transformer模型擅长捕捉语音序列中的全局上下文依赖关系,而CNN则能高效提取局部特征。在本研究中,我们通过探索如何将CNN与Transformer有效结合,以参数高效的方式建模语音序列中的局部与全局依赖关系,实现了两者的优势互补。为此,我们提出了一种名为Conformer的卷积增强型Transformer架构。实验结果表明,Conformer显著优于以往基于Transformer和CNN的模型,在多个指标上达到了当前最优水平。在广泛使用的LibriSpeech基准测试中,该模型在未使用语言模型的情况下,分别取得了2.1%/4.3%的词错误率(WER);在引入外部语言模型后,测试集(test)和测试集其他(test-other)上的WER进一步降低至1.9%/3.9%。此外,即使采用仅含1000万参数的小规模模型,Conformer仍表现出具有竞争力的性能,WER分别为2.7%和6.3%。