17 天前
ContextNet:通过引入全局上下文提升卷积神经网络在自动语音识别中的性能
Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu

摘要
卷积神经网络(CNN)在端到端语音识别任务中已展现出良好的性能,尽管其当前表现仍略逊于其他先进方法。本文旨在探索如何缩小这一差距并实现进一步突破,提出了一种新颖的CNN-RNN-Transducer架构,命名为ContextNet。该模型采用全卷积编码器结构,并通过引入挤压-激励(squeeze-and-excitation)模块,将全局上下文信息融入卷积层中,从而增强特征表示能力。此外,本文还提出一种简洁的宽度缩放方法,可在计算开销与识别准确率之间实现良好平衡。实验结果表明,在广泛使用的LibriSpeech基准测试中,ContextNet在无需外部语言模型(LM)的情况下,于干净和嘈杂测试集上分别达到2.1%/4.6%的词错误率(WER);在使用语言模型时,WER进一步降低至1.9%/4.1%;而当模型参数量仅为1000万时,仍可实现2.9%/7.0%的WER。相比之下,此前发表的最佳系统在使用语言模型时的性能为2.0%/4.6%,而参数量为2000万时的WER为3.9%/11.3%。此外,该模型在更大规模的内部数据集上也表现出显著优越性,进一步验证了ContextNet的有效性与泛化能力。