2ヶ月前

注意に基づく音声認識モデル

Jan Chorowski; Dzmitry Bahdanau; Dmitriy Serdyuk; Kyunghyun Cho; Yoshua Bengio
注意に基づく音声認識モデル
要約

入力データを注意メカニズムを通じて条件付けた再帰的なシーケンスジェネレータは、機械翻訳、筆記体合成、画像キャプション生成などの多様なタスクにおいて最近非常に優れた性能を示しています。本研究では、音声認識に必要な機能を注意メカニズムに追加しました。実験結果によると、機械翻訳で使用されるモデルの改良版がTIMIT音素認識タスクで競争力のある18.7%の音素誤り率(PER)を達成した一方で、このモデルは訓練された発話とほぼ同じ長さの発話にしか適用できないことが明らかになりました。この失敗の定性的な説明を行い、位置認識機能を注意メカニズムに追加する新しい汎用的方法を提案します。この新方法により、長い入力にも堅牢なモデルが得られ、単一発話では18%のPER、10倍長い(繰り返し)発話では20%のPERを達成しました。最後に、注意メカニズムが特定のフレームに過度に集中しないようにする変更点を提案し、これによりPERがさらに17.6%まで低下しました。