3ヶ月前

Squeezeformer：自動音声認識向け効率的なTransformer

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer

論文の詳細を見る View Code

要約

最近提案されたConformerモデルは、局所的およびグローバルな特徴を捉えるハイブリッドアテンション-畳み込みアーキテクチャを備えることから、さまざまな下流音声タスクにおけるデファクト・バックボーンモデルとして広く採用されている。しかし、一連の体系的な研究を通じて、Conformerアーキテクチャの設計選択が最適ではないことが明らかになった。本研究では、Conformerのマクロアーキテクチャおよびマイクロアーキテクチャの設計選択を再検討した上で、同一の学習スキーム下で最先端の音声認識モデルを一貫して上回るSqueezeformerを提案する。特にマクロアーキテクチャにおいて、Squeezeformerは（i）長序列におけるマルチヘッドアテンションモジュールの計算コストを低減する「Temporal U-Net」構造を導入し、（ii）Conformerで提案されたMacaron構造ではなく、マルチヘッドアテンションまたは畳み込みモジュールの単純なブロック構造にその後にフィードフォワードモジュールを配置する構成を採用している。また、マイクロアーキテクチャにおいては、（i）畳み込みブロック内の活性化関数を簡素化し、（ii）冗長なLayer Normalizationの操作を削除し、（iii）効率的な深度方向ダウンサンプリング層を導入して入力信号を効率的に低サンプリングしている。Squeezeformerは、外部言語モデルを用いないLibriSpeech test-otherデータセットにおいて、それぞれ7.5%、6.5%、6.0%の単語誤り率（WER）を達成し、同等のFLOPs数を有するConformer-CTCよりも3.1%、1.4%、0.6%優れた性能を発揮した。本研究のコードはオープンソース化され、オンラインで公開されている。