17日前
Zipformer:自動音声認識のためのより高速かつ優れたエンコーダ
Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey

要約
Conformerは、音声認識(ASR)における最も普及したエンコーダーモデルとして定着している。これはTransformerに畳み込みモジュールを追加することで、局所的およびグローバルな依存関係を学習可能にしている。本研究では、より高速かつメモリ効率が高く、性能も優れたTransformerモデル「Zipformer」を提案する。モデル構造の変更点は以下の通りである:1)U-Netに類似したエンコーダー構造を採用し、中間のスタック部ではフレームレートを低くすることで計算負荷を軽減;2)モジュール数を増やした再構成されたブロック構造を設計し、注意機構(attention)の重みを再利用することで効率を向上;3)長さ情報の一部を保持できるように改良されたLayerNormの変種であるBiasNormを導入;4)Swishより優れた性能を示す新しい活性化関数としてSwooshRおよびSwooshLを提案。また、各テンソルの現在のスケールに応じて更新量をスケーリングし、パラメータの相対的な変化を一定に保つことで高速収束と良好な性能を実現する新規最適化手法「ScaledAdam」を提案。Adamと比較して、より速い収束性と高い性能を達成した。LibriSpeech、Aishell-1、WenetSpeechの各データセットにおける広範な実験により、本研究で提案するZipformerが他の最先端ASRモデルを上回る有効性が実証された。本研究のコードは、GitHubにて公開されている:https://github.com/k2-fsa/icefall。