17日前

効率的な音声認識のための線形スケーラブルなアテンションを備えた高速Conformer

Dima Rekesh, Nithin Rao Koluguri, Samuel Kriman, Somshubra Majumdar, Vahid Noroozi, He Huang, Oleksii Hrinchuk, Krishna Puvvada, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg
効率的な音声認識のための線形スケーラブルなアテンションを備えた高速Conformer
要約

Conformerに基づくモデルは、音声処理タスクにおける主流のエンドツーエンドアーキテクチャとして定着している。本研究では、Conformerアーキテクチャの学習および推論の効率性を向上させる目的で、新しいダウンサンプリングスキームを用いてConformerを再設計した。提案するモデル「Fast Conformer(FC)」は、元のConformerに比べて2.8倍高速であり、コアアーキテクチャの変更なしに数十億パラメータ規模へのスケーリングを可能にするとともに、自動音声認識(ASR)ベンチマークにおいて最先端の精度を達成している。長時間音声(最大11時間)の音声認識を実現するため、学習後処理においてグローバルアテンションを限定的文脈アテンションに置き換え、さらにグローバルトークンを追加した微調整により精度を向上させた。Fast Conformerは、Transformerデコーダと組み合わせた場合、音声翻訳および spoken language understanding(話された言語理解)において、元のConformerよりも高い精度と高速性を実現している。

効率的な音声認識のための線形スケーラブルなアテンションを備えた高速Conformer | 最新論文 | HyperAI超神経