9일 전

프라임럴-어텐션: 프라임럴 표현에서 비대칭 커널 SVD를 통한 자체 어텐션

Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A.K. Suykens
프라임럴-어텐션: 프라임럴 표현에서 비대칭 커널 SVD를 통한 자체 어텐션
초록

최근 들어, Transformer의 자기주의(self-attention)를 커널 기계(kernel machine)로 간주함으로써 그 이해와 개선을 위한 새로운 연구 방향이 등장하고 있다. 그러나 기존 연구들은 대칭 커널에 적용되는 기법을 비대칭 자기주의에 직접 적용함으로써 분석적 이해와 수치적 구현 사이에 상당한 격차가 발생하고 있다. 본 논문에서는 깊은 층에서 일반적으로 관찰되는 자기주의의 낮은 랭크 성질에 기반하여, 비대칭 커널 특이값 분해(Kernel Singular Value Decomposition, KSVD)를 통해 자기주의를 새로운 관점에서 표현하고 최적화하는 방법을 제안한다. 비대칭 KSVD를 통해 다음과 같은 세 가지 주요 기여를 달성한다. $i$) 자기주의에 대한 원시-이중(primal-dual) 표현을 제안하며, 이는 최적화 목표를 주의 출력에서의 투영 분산을 최대화하는 것으로 재정의한다. $ii$) KSVD의 원시 표현을 기반으로, 이중 표현에서 커널 행렬의 명시적 계산을 피하는 새로운 주의 메커니즘인 Primal-Attention을 제안한다. $iii$) KKT 조건을 활용하여, Primal-Attention에서 KSVD 최적화의 정상해(stationary solution)가 목표 함수값을 0으로 유도함을 증명한다. 이러한 성질을 바탕으로, KSVD 최적화는 별도의 분해 과정 없이 정규화 손실(regularization loss)을 단순히 최소화함으로써 구현 가능하게 된다. 수치 실험 결과, 제안하는 Primal-Attention은 뛰어난 성능과 함께 높은 효율성을 보였다. 또한, 적용된 KSVD 최적화가 기존 자기주의보다 더 급격한 특이값 감소(singular value decay)를 유도함으로써 Primal-Attention의 정규화 효과를 입증하며, 본 방법의 큰 잠재력을 추가로 확인하였다. 저희의 지식에 따르면, 본 논문은 자기주의의 비대칭 커널에 대해 원시-이중 표현을 제안하고 이를 모델링 및 최적화에 성공적으로 적용한 최초의 연구이다.