3 个月前

Squeezeformer:一种用于自动语音识别的高效Transformer

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer
Squeezeformer:一种用于自动语音识别的高效Transformer
摘要

近期提出的Conformer模型因其融合注意力机制与卷积结构的混合架构,能够有效捕捉语音信号的局部与全局特征,已成为各类下游语音任务的默认骨干模型。然而,通过一系列系统性研究,我们发现Conformer架构的设计选择并非最优。在对Conformer的宏观与微观架构设计进行重新审视后,我们提出了Squeezeformer模型,在相同训练方案下,其性能持续优于当前最先进的自动语音识别(ASR)模型。具体而言,在宏观架构方面,Squeezeformer引入了两项关键改进:(i)采用时序U-Net结构,显著降低了长序列上多头注意力模块的计算开销;(ii)采用更简洁的模块结构——即多头注意力或卷积模块后接前馈网络模块,取代Conformer中提出的Macaron结构。此外,在微观架构层面,Squeezeformer进一步进行了优化:(i)简化了卷积模块中的激活函数设计;(ii)移除了冗余的层归一化(Layer Normalization)操作;(iii)引入高效的深度可分离下采样层,以高效地对输入信号进行降采样。在LibriSpeech测试集(test-other)上,Squeezeformer在不使用外部语言模型的情况下,实现了7.5%、6.5%和6.0%的词错误率(WER),相较相同浮点运算量(FLOPs)下的Conformer-CTC模型,分别提升了3.1%、1.4%和0.6%。该成果表明Squeezeformer在保持高效性的同时显著提升了识别准确率。相关代码已开源,可在线获取。