어텐션을 RNN으로서의 관점에서 본다

Transformers의 등장은 시퀀스 모델링 분야에서 중요한 돌파구를 가져왔으며, GPU 병렬 처리를 효과적으로 활용할 수 있는 높은 성능을 지닌 아키텍처를 제공하였다. 그러나 Transformers는 추론 시 계산 비용이 매우 높아, 특히 자원이 제한된 환경(예: 모바일 및 임베디드 장치)에서의 응용을 제한하고 있다. 이를 해결하기 위해 본 연구는 (1) 주목(attention)이 다수에서 일수로 출력을 계산할 수 있는 효율적인 특성을 지닌 특수한 순환 신경망(RNN)으로 볼 수 있음을 처음으로 제시한다. 이후 (2) 주목 기반 모델(예: Transformers)이 RNN의 변종으로 간주될 수 있음을 보여주며, 기존 RNN(예: LSTM)과 달리 새로운 토큰에 대해 효율적으로 갱신될 수 없다는 점을 지적한다. 이 문제를 해결하기 위해 (3) 병렬 프리픽스 스캔(Parallel Prefix Scan) 알고리즘을 기반으로 주목의 다수-다수 RNN 출력을 효율적으로 계산하는 새로운 방법을 제안한다. 이러한 새로운 주목 공식화를 바탕으로 (4) 본 연구는 \textbf{Aaren}이라는 주목 기반 모듈을 제안한다. Aaren은 (i) Transformers와 마찬가지로 병렬로 학습이 가능할 뿐만 아니라, (ii) 새로운 토큰에 대해 효율적으로 갱신이 가능하며, 추론 시 상수 시간 복잡도와 상수 메모리 사용량을 보장한다(전통적 RNN과 유사). 실험적으로, Aaren은 강화 학습, 이벤트 예측, 시계열 분류, 시계열 예측 등 네 가지 주요 시계열 문제 설정에 걸쳐 분포된 38개의 데이터셋에서 Transformers와 유사한 성능을 달성하면서도, 시간 및 메모리 효율성이 더욱 우수함을 입증하였다.