2ヶ月前

適応的に疎なトランスフォーマー

Gonçalo M. Correia; Vlad Niculae; André F.T. Martins
適応的に疎なトランスフォーマー
要約

注意機構は自然言語処理(NLP)において一般的となりました。特に、Transformerなどの最近のアーキテクチャは、層化されたマルチヘッド注意を用いて強力な文脈に応じた単語表現を学習します。複数のヘッドは異なる種類の単語関係を学習します。しかし、標準的なソフトマックス注意では、すべての注意ヘッドが密であり、すべての文脈単語に非ゼロの重みを割り当てます。本研究では、注意ヘッドが柔軟で文脈依存的な疎性パターンを持つ適応的に疎なTransformerを導入します。この疎性は、ソフトマックスを$\alpha$-entmaxに置き換えることで達成されます。$\alpha$-entmaxは、低スコアの単語に正確にゼロの重みを与えることができるソフトマックスの微分可能な一般化です。さらに、我々は$\alpha$パラメータ -- $\alpha$-entmaxの形状と疎性を制御する -- を自動的に学習する方法を導出しました。これにより、注意ヘッドは集中型または分散型の挙動を選択することができます。我々の適応的に疎なTransformerは、機械翻訳データセットにおいてソフトマックスTransformerと比較して解釈可能性とヘッド多様性を向上させます。当該手法に関する定量的および定性的分析の結果には、異なる層にあるヘッドが異なる疎性選好を学習し、その注意分布がソフトマックスTransformerよりもより多様であるという点が含まれています。また、精度に影響を与えることなく、注意ヘッドにおける疎性は異なるヘッド特化を明らかにするのに役立ちます。

適応的に疎なトランスフォーマー | 最新論文 | HyperAI超神経