10 天前
原始注意力:通过原始表示中的非对称核SVD实现的自注意力
Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens

摘要
近期,一系列新研究致力于通过将自注意力机制(self-attention)视为核机器(kernel machine)来深入理解并改进Transformer模型。然而,现有方法将适用于对称核的分析技术直接应用于具有非对称特性的自注意力机制,导致理论分析与实际数值实现之间存在显著差距。本文提出一种新的视角,通过非对称核奇异值分解(Asymmetric Kernel Singular Value Decomposition, KSVD)来表征与优化自注意力机制,该方法的提出也受到深层网络中自注意力通常表现出低秩特性的启发。基于非对称KSVD,本文取得以下三方面关键成果:i)构建了自注意力的原-对偶表示框架,其中优化目标被重新表述为最大化注意力输出中的投影方差;ii)基于KSVD的原表示,提出一种新型注意力机制——原注意力(Primal-Attention),该机制避免了在对偶空间中显式计算核矩阵,从而提升了计算效率;iii)结合KKT条件,证明了在原注意力框架下,KSVD优化的驻点解对应的优化目标值为零。因此,KSVD优化可通过最小化一个正则化损失函数实现,无需额外的分解步骤即可自然促进低秩特性。数值实验表明,所提出的Primal-Attention在性能上达到当前最先进水平,同时显著提升了计算效率。此外,我们进一步验证了部署KSVD优化后,Primal-Attention的奇异值衰减更为陡峭,相较于标准自注意力机制具有更优的低秩结构特性,充分体现了该方法的巨大潜力。据我们所知,本文是首个为自注意力中的非对称核提供原-对偶表示,并成功将其应用于建模与优化的开创性工作。