17 天前
超越通用Transformer:在自动语音识别中采用适配器的块重用Transformer
Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li

摘要
基于Transformer的模型在端到端(End-to-End, E2E)自动语音识别(Automatic Speech Recognition, ASR)应用中取得了显著进展。借助这类模型,E2E ASR系统有望部署于智能终端设备上。然而,这些模型仍存在参数量庞大的缺点,限制了其在资源受限的边缘设备上的应用。为克服通用Transformer模型在边缘设备ASR应用中的这一局限,本文提出一种创新方案:通过在小型化ASR系统中复用Transformer模型中的模块结构,实现模型轻量化,从而在不牺牲识别准确率的前提下满足资源受限场景的需求。具体而言,本文设计了一种新型的模块复用策略——语音Transformer模块复用机制(Block-Reusing Strategy for Speech Transformer, BRST),以提升参数利用效率;同时提出一种适配器模块(Adapter Module, ADM),该模块仅引入少量可训练参数,即可在每个复用模块旁生成紧凑且具备良好适应性的模型结构。我们在公开的AISHELL-1语料库上对所提方法进行了实验验证,结果表明:在不使用ADM的情况下,模型仅需7.6M参数即可达到9.3%的字符错误率(Character Error Rate, CER);在引入ADM后,模型参数量增至8.3M,CER进一步降低至6.63%。此外,本文还进行了深入分析,验证了ADM在通用模块复用方法中的有效性与贡献。