17日前

Conformer:音声認識向けの畳み込み拡張型Transformer

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang
Conformer:音声認識向けの畳み込み拡張型Transformer
要約

近年、Transformerおよび畳み込みニューラルネットワーク(CNN)をベースとするモデルは、自動音声認識(ASR)において、従来の再帰型ニューラルネットワーク(RNN)を上回る有望な成果を上げている。Transformerモデルは、コンテンツに基づくグローバルな相互作用を効果的に捉える能力に優れており、一方でCNNは局所的な特徴を効率的に抽出できる。本研究では、パラメータ効率的な方法で音声系列の局所的依存関係とグローバルな依存関係を同時にモデル化するため、CNNとTransformerを組み合わせる手法を検討した。その結果、音声認識用に畳み込みを拡張したTransformerモデル、すなわち「Conformer」を提案する。Conformerは、従来のTransformerおよびCNNベースのモデルを大きく上回り、最先端の精度を達成した。広く用いられているLibriSpeechベンチマークにおいて、言語モデルを用いない場合、テストデータ(test)およびテスト他(testother)でそれぞれ2.1% / 4.3%の誤り率(WER)を達成し、外部言語モデルを用いる場合では1.9% / 3.9%にまで改善した。また、パラメータ数わずか1000万の小型モデルでも、2.7% / 6.3%という競争力のある性能を示した。

Conformer:音声認識向けの畳み込み拡張型Transformer | 最新論文 | HyperAI超神経