11일 전

Transformers는 RNN이다: 선형 어텐션을 활용한 빠른 순차적 Transformer

Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, François Fleuret
Transformers는 RNN이다: 선형 어텐션을 활용한 빠른 순차적 Transformer
초록

Transformers는 여러 작업에서 뛰어난 성능을 달성하지만, 입력 길이에 대해 제곱 시간 복잡도(O(N²))를 가지기 때문에 매우 긴 시퀀스 처리에는 매우 느려진다. 이 제한을 극복하기 위해 우리는 자기 주의(self-attention)를 커널 특징 맵의 선형 내적(linear dot-product) 형태로 표현하고, 행렬 곱셈의 결합법칙을 활용하여 복잡도를 O(N²)에서 O(N)으로 감소시킨다. 여기서 N은 시퀀스 길이를 의미한다. 본 연구에서는 이러한 공식화가 반복적 구현(iterative implementation)을 가능하게 하며, 자동 회귀적(transformers) 모델의 속도를 획기적으로 향상시키고, 순환 신경망(recurrent neural networks, RNNs)과의 관계를 밝혀낸다. 선형 Transformers는 원시적인 Transformers와 유사한 성능을 보이며, 매우 긴 시퀀스에 대한 자동 회귀 예측에서 최대 4000배 빠른 속도를 달성한다.

Transformers는 RNN이다: 선형 어텐션을 활용한 빠른 순차적 Transformer | 최신 연구 논문 | HyperAI초신경