HyperAIHyperAI

Command Palette

Search for a command to run...

Squeezeformer:自動音声認識向け効率的なTransformer

Sehoon Kim Amir Gholami Albert Shaw Nicholas Lee Karttikeya Mangalam Jitendra Malik Michael W. Mahoney Kurt Keutzer

概要

最近提案されたConformerモデルは、局所的およびグローバルな特徴を捉えるハイブリッドアテンション-畳み込みアーキテクチャを備えることから、さまざまな下流音声タスクにおけるデファクト・バックボーンモデルとして広く採用されている。しかし、一連の体系的な研究を通じて、Conformerアーキテクチャの設計選択が最適ではないことが明らかになった。本研究では、Conformerのマクロアーキテクチャおよびマイクロアーキテクチャの設計選択を再検討した上で、同一の学習スキーム下で最先端の音声認識モデルを一貫して上回るSqueezeformerを提案する。特にマクロアーキテクチャにおいて、Squeezeformerは(i)長序列におけるマルチヘッドアテンションモジュールの計算コストを低減する「Temporal U-Net」構造を導入し、(ii)Conformerで提案されたMacaron構造ではなく、マルチヘッドアテンションまたは畳み込みモジュールの単純なブロック構造にその後にフィードフォワードモジュールを配置する構成を採用している。また、マイクロアーキテクチャにおいては、(i)畳み込みブロック内の活性化関数を簡素化し、(ii)冗長なLayer Normalizationの操作を削除し、(iii)効率的な深度方向ダウンサンプリング層を導入して入力信号を効率的に低サンプリングしている。Squeezeformerは、外部言語モデルを用いないLibriSpeech test-otherデータセットにおいて、それぞれ7.5%、6.5%、6.0%の単語誤り率(WER)を達成し、同等のFLOPs数を有するConformer-CTCよりも3.1%、1.4%、0.6%優れた性能を発揮した。本研究のコードはオープンソース化され、オンラインで公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています