17 天前

Zipformer:一种更快更优的自动语音识别编码器

Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey
Zipformer:一种更快更优的自动语音识别编码器
摘要

Conformer 已成为自动语音识别(ASR)领域最流行的编码器模型,其通过在 Transformer 架构中引入卷积模块,能够同时捕捉局部与全局依赖关系。在本工作中,我们提出了一种更快速、内存效率更高且性能更优的 Transformer 变体,称为 Zipformer。其主要建模改进包括:1)采用类似 U-Net 的编码器结构,中间层以更低的帧率进行处理;2)重构块结构,引入更多模块,并通过复用注意力权重以提升计算效率;3)提出一种改进的 LayerNorm 变体——BiasNorm,能够在保留部分序列长度信息的同时维持归一化效果;4)设计了新型激活函数 SwooshR 与 SwooshL,其性能优于传统的 Swish 函数。此外,我们还提出一种新型优化器——ScaledAdam,该优化器根据每个张量当前的尺度对更新量进行缩放,以保持相对变化的一致性,并显式地学习参数的尺度。相比 Adam 优化器,ScaledAdam 具有更快的收敛速度和更优的性能表现。在 LibriSpeech、Aishell-1 以及 WenetSpeech 等多个公开数据集上的大量实验表明,所提出的 Zipformer 在各项指标上均优于当前主流的先进 ASR 模型。相关代码已开源,可访问 https://github.com/k2-fsa/icefall 获取。