1ヶ月前

軽量かつ動的な畳み込みを用いて注意を払う量を減らす

Felix Wu; Angela Fan; Alexei Baevski; Yann N. Dauphin; Michael Auli
軽量かつ動的な畳み込みを用いて注意を払う量を減らす
要約

自己注意(self-attention)は言語と画像の生成モデルを構築するための有用なメカニズムであり、各要素を現在の時間ステップと比較することでコンテキスト要素の重要性を決定します。本論文では、非常に軽量な畳み込みが報告されている最良の自己注意結果と競争的に機能することを示しています。次に、自己注意よりも単純で効率的な動的畳み込み(dynamic convolutions)について紹介します。動的畳み込みでは、現在の時間ステップに基づいて個別の畳み込みカーネルを予測し、コンテキスト要素の重要性を決定します。このアプローチに必要な演算量は入力長に線形でスケールしますが、自己注意は二次関数的に増加します。大規模な機械翻訳、言語モデリング、抽象的要約化における実験結果から、動的畳み込みが強力な自己注意モデルよりも優れていることが示されています。WMT'14英独テストセットにおいて、動的畳み込みは29.7 BLEUという新しい最先端の成果を達成しました。