HyperAIHyperAI

Command Palette

Search for a command to run...

リラックスド・アテンション:エンドツーエンド自動音声認識の性能向上を図るシンプルな手法

Timo Lohrenz Patrick Schwarz Zhengyang Li Tim Fingscheidt

概要

近年、注意機構を備えたエンコーダ-デコーダー(AED)モデルは、複数のタスクにおいてエンドツーエンド型自動音声認識(ASR)で高い性能を示している。本論文では、こうしたモデルにおける過信(overconfidence)の問題に対処するため、「緩やかな注意(relaxed attention)」という新しい概念を提案する。これは、学習中にエンコーダ-デコーダーの注意重みに均一分布を段階的に注入するシンプルな手法であり、わずか2行のコードで容易に実装可能である。本研究では、異なるAEDモデルアーキテクチャおよび代表的な2つのASRタスク(Wall Street Journal: WSJ および Librispeech)において、緩やかな注意の効果を検証した。その結果、緩やかな注意を用いて訓練されたTransformerモデルは、外部言語モデルを用いたデコードにおいて、標準的なベースラインモデルを一貫して上回る性能を発揮した。特にWSJタスクにおいて、単一のハイパーパラメータのみを導入したにもかかわらず、単語誤り率(WER)3.65%という新たなベンチマークを達成し、既存の最先端技術(4.20%)を13.1%相対的に上回った。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています