11일 전
Fastformer: 덧셈 Attention이 당신에게 필요한 전부일 수 있다
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie

초록
Transformer는 텍스트 이해에 있어 강력한 모델이지만, 입력 시퀀스 길이에 대해 이차 복잡도를 가지기 때문에 효율성이 낮다. Transformer 가속화를 위한 다양한 방법이 존재하지만, 여전히 긴 시퀀스에서 효율적이지 않거나 충분히 효과적이지 못한 경우가 많다. 본 논문에서는 덧셈형 어텐션(additive attention) 기반의 효율적인 Transformer 모델인 Fastformer를 제안한다. Fastformer는 토큰 간의 쌍별 상호작용을 모델링하는 대신, 먼저 덧셈형 어텐션 기법을 활용해 전역적 맥락(global context)을 모델링하고, 이후 각 토큰 표현을 전역적 맥락 표현과의 상호작용을 기반으로 추가적으로 변환한다. 이를 통해 Fastformer는 선형 복잡도로 효과적인 맥락 모델링을 달성할 수 있다. 다섯 개의 데이터셋에 대한 광범위한 실험 결과, Fastformer는 기존의 많은 Transformer 모델보다 훨씬 더 효율적이며, 동시에 긴 텍스트 모델링 성능에서도 유사하거나 더 우수한 성능을 보였다.