10日前

プリマル・アテンション:プリマル表現における非対称カーネルSVDを用いた自己アテンション

Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens
プリマル・アテンション:プリマル表現における非対称カーネルSVDを用いた自己アテンション
要約

近年、Transformerにおける自己注意機構(self-attention)の理解と改善を目的として、それをカーネル機械(kernel machine)として扱う新たな研究アプローチが登場している。しかし、従来の手法は対称カーネルに適用される方法を非対称な自己注意機構に直接適用しており、解析的考察と数値実装の間に顕著なギャップが生じている。本論文では、深層部における自己注意機構の低ランク性という一般的な観察に着目し、非対称カーネル特異値分解(Asymmetric Kernel Singular Value Decomposition: KSVD)を用いた自己注意機構の新たな表現と最適化の視点を提示する。本手法により、以下の成果が得られた:i)自己注意機構の元双対表現(primal-dual representation)が構築され、最適化目的が注意出力における射影分散の最大化として定式化される;ii)KSVDの元表現を基に、双対表現におけるカーネル行列の明示的計算を回避する新たな注意機構「Primal-Attention」が提案される;iii)KKT条件を用いて、Primal-AttentionにおけるKSVD最適化の定常解が目的関数値ゼロをもたらすことを証明する。この性質により、KSVD最適化は正則化損失の単純な最小化として実装可能となり、追加の分解処理を必要とせずに低ランク性が自然に促進される。数値実験の結果、Primal-Attentionは最先端の性能を達成するとともに、効率性の向上も示された。さらに、導入されたKSVD最適化がPrimal-Attentionに尖鋭な特異値減衰(singular value decay)をもたらすことを実証し、従来の自己注意機構と比較してより優れた表現能力を持つことを裏付けた。本研究の成果として、自己注意機構における非対称カーネルに対して初の元双対表現を提供し、そのモデル化および最適化への成功した応用を実現した点に、本研究の意義がある。