2ヶ月前

リラックスした注意メカニズムを用いたトランスフォーマーモデル

Lohrenz, Timo ; Möller, Björn ; Li, Zhengyang ; Fingscheidt, Tim
リラックスした注意メカニズムを用いたトランスフォーマーモデル
要約

全注意機構に基づくトランスフォーマー構造の強力なモデリング能力は、しばしば過学習を引き起こし、自然言語処理タスクにおいては、自己回帰トランスフォーマーデコーダーで暗黙的に学習される内部言語モデルが外部言語モデルの統合を複雑にすることがあります。本論文では、リラックスアテンション(relaxed attention)と呼ばれる、注意重みの単純かつ実装が容易な平滑化手法について探討します。この手法により、一般的なトランスフォーマー構造に二つの改善がもたらされます。第一に、リラックスアテンションはエンコーダーの自己注意層に適用された際に正則化を提供します。第二に、デコーダーでのクロス注意を緩和することで、暗黙的に学習される内部言語モデルを抑制し、外部言語モデルの統合を自然にサポートすることが示されています。我々はいくつかのタスクにおいてリラックスアテンションの利点を示し、最近のベンチマークアプローチとの組み合わせで明確な改善が見られることを確認しました。特に、最大公的唇読LRS3ベンチマークにおいて26.90%だった従来の最先端性能の単語誤り率を26.31%まで低下させました。また、IWSLT14 (DE→EN) 機械翻訳タスクにおいても外部言語モデルを使用せずほぼ追加パラメータなしで最高性能であるBLEUスコア37.67を達成しました。コードとモデルは公開される予定です。