17일 전

랜덤 피처 어텐션

Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong
랜덤 피처 어텐션
초록

Transformers는 다양한 시퀀스 모델링 작업에 있어 최첨단 모델이다. 이들의 핵심은 각 타임스텝에서 입력 간의 쌍별 상호작용을 모델링하는 어텐션 함수이다. 어텐션은 강력하지만, 시퀀스 길이에 대해 시간과 공간 복잡도가 이차적(quadratic)이기 때문에 긴 시퀀스에 대해서는 효율적으로 확장되지 않는다. 본 연구에서는 소프트맥스 함수를 무작위 특징(random feature) 방법을 활용해 근사화하는 선형 시간 및 공간 복잡도 어텐션인 RFA를 제안하며, 이 기법이 Transformers에 어떻게 적용될 수 있는지 탐구한다. RFA는 기존의 소프트맥스 어텐션과 교체 가능하며, 선택적 게이팅 메커니즘을 통해 최근성 편향(recency bias)을 간단히 학습할 수 있는 방법을 제공한다. 언어 모델링 및 기계 번역 실험을 통해 RFA가 강력한 Transformer 기반 모델과 비교해 유사하거나 더 뛰어난 성능을 달성함을 입증하였다. 기계 번역 실험에서는 RFA가 기존의 일반적인 Transformer보다 두 배 빠르게 디코딩하는 것으로 나타났다. 기존의 효율적인 Transformer 변형 모델들과 비교했을 때, RFA는 세 가지 긴 텍스트 분류 데이터셋에서 정확도와 효율성 측면에서 경쟁력 있는 성능을 보였다. 분석 결과, RFA의 효율성 향상은 특히 긴 시퀀스에서 두드러지게 나타나며, 이는 대규모 입력을 다뤄야 하거나 빠른 디코딩 속도 또는 낮은 메모리 사용량이 요구되는 작업에 RFA가 특히 유용할 수 있음을 시사한다.

랜덤 피처 어텐션 | 최신 연구 논문 | HyperAI초신경