3달 전

어텐션을 RNN으로서의 관점에서 본다

Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori
어텐션을 RNN으로서의 관점에서 본다
초록

Transformers의 등장은 시퀀스 모델링 분야에서 중요한 돌파구를 가져왔으며, GPU 병렬 처리를 효과적으로 활용할 수 있는 높은 성능을 지닌 아키텍처를 제공하였다. 그러나 Transformers는 추론 시 계산 비용이 매우 높아, 특히 자원이 제한된 환경(예: 모바일 및 임베디드 장치)에서의 응용을 제한하고 있다. 이를 해결하기 위해 본 연구는 (1) 주목(attention)이 다수에서 일수로 출력을 계산할 수 있는 효율적인 특성을 지닌 특수한 순환 신경망(RNN)으로 볼 수 있음을 처음으로 제시한다. 이후 (2) 주목 기반 모델(예: Transformers)이 RNN의 변종으로 간주될 수 있음을 보여주며, 기존 RNN(예: LSTM)과 달리 새로운 토큰에 대해 효율적으로 갱신될 수 없다는 점을 지적한다. 이 문제를 해결하기 위해 (3) 병렬 프리픽스 스캔(Parallel Prefix Scan) 알고리즘을 기반으로 주목의 다수-다수 RNN 출력을 효율적으로 계산하는 새로운 방법을 제안한다. 이러한 새로운 주목 공식화를 바탕으로 (4) 본 연구는 \textbf{Aaren}이라는 주목 기반 모듈을 제안한다. Aaren은 (i) Transformers와 마찬가지로 병렬로 학습이 가능할 뿐만 아니라, (ii) 새로운 토큰에 대해 효율적으로 갱신이 가능하며, 추론 시 상수 시간 복잡도와 상수 메모리 사용량을 보장한다(전통적 RNN과 유사). 실험적으로, Aaren은 강화 학습, 이벤트 예측, 시계열 분류, 시계열 예측 등 네 가지 주요 시계열 문제 설정에 걸쳐 분포된 38개의 데이터셋에서 Transformers와 유사한 성능을 달성하면서도, 시간 및 메모리 효율성이 더욱 우수함을 입증하였다.