11일 전

Fastformer: 덧셈 Attention이 당신에게 필요한 전부일 수 있다

Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie
Fastformer: 덧셈 Attention이 당신에게 필요한 전부일 수 있다
초록

Transformer는 텍스트 이해에 있어 강력한 모델이지만, 입력 시퀀스 길이에 대해 이차 복잡도를 가지기 때문에 효율성이 낮다. Transformer 가속화를 위한 다양한 방법이 존재하지만, 여전히 긴 시퀀스에서 효율적이지 않거나 충분히 효과적이지 못한 경우가 많다. 본 논문에서는 덧셈형 어텐션(additive attention) 기반의 효율적인 Transformer 모델인 Fastformer를 제안한다. Fastformer는 토큰 간의 쌍별 상호작용을 모델링하는 대신, 먼저 덧셈형 어텐션 기법을 활용해 전역적 맥락(global context)을 모델링하고, 이후 각 토큰 표현을 전역적 맥락 표현과의 상호작용을 기반으로 추가적으로 변환한다. 이를 통해 Fastformer는 선형 복잡도로 효과적인 맥락 모델링을 달성할 수 있다. 다섯 개의 데이터셋에 대한 광범위한 실험 결과, Fastformer는 기존의 많은 Transformer 모델보다 훨씬 더 효율적이며, 동시에 긴 텍스트 모델링 성능에서도 유사하거나 더 우수한 성능을 보였다.

Fastformer: 덧셈 Attention이 당신에게 필요한 전부일 수 있다 | 최신 연구 논문 | HyperAI초신경