11日前
シンセサイザー:Transformerモデルにおける自己注意機構の再考
Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng

要約
ドット積に基づく自己注意(self-attention)は、最先端のTransformerモデルにおいて中心的かつ不可欠な要素として知られている。しかし、本当にこれが必要なのであろうか?本論文では、ドット積に基づく自己注意機構がTransformerモデルの性能に果たす真の重要性と貢献度について検証する。広範な実験を通じて、我々は以下の2点を明らかにした。(1)ランダムなアライメント行列が、驚くべきほど競争力のある性能を示すことが分かった。(2)トークン同士(クエリ・キー)の相互作用から注意重みを学習することは有用ではあるが、実際のところそれほど重要な要素ではないことが判明した。この知見を踏まえ、本研究ではトークン同士の相互作用を一切用いない合成的な注意重みを学習するモデル「\textsc{Synthesizer}」を提案する。実験の結果、まず、機械翻訳、言語モデル構築、テキスト生成、およびGLUE/SuperGLUEベンチマークなど多様なタスクにおいて、シンプルなSynthesizerが従来型Transformerモデルと比較しても非常に競争力のある性能を発揮することを示した。さらに、ドット積注意機構と組み合わせた場合、Synthesizerは一貫してTransformerを上回る性能を示した。また、動的畳み込み(Dynamic Convolutions)との追加比較において、単純なランダムSynthesizerは処理速度が60%高速でありながら、 perplexity(平均エントロピー)において相対3.5%の改善を達成した。最後に、因子分解されたシンプルなSynthesizerが、エンコーディングのみを対象とするタスクにおいて、Linformerを上回ることを示した。