15일 전
Nyströmformer: 자기 주의를 근사화하는 데 사용되는 Nyström 기반 알고리즘
Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh

초록
Transformers는 자연어 처리 작업 전반에 걸쳐 강력한 도구로 부상하고 있다. Transformers의 놀라운 성능을 이끄는 핵심 요소는 각 특정 토큰에 대해 다른 토큰들의 영향이나 의존성을 인코딩하는 자기주의(self-attention) 메커니즘이다. 이러한 메커니즘은 매우 유용하지만, 입력 시퀀스 길이에 대해 이차 복잡도(quadratic complexity)를 가지기 때문에, 긴 시퀀스에 대한 적용이 제한되어 왔다. 이 문제는 현재 연구 커뮤니티에서 적극적으로 탐구되고 있는 주제이다. 이 제약을 극복하기 위해, 우리는 시퀀스 길이에 따라 우수한 확장성을 보이는 Nyströmformer 모델을 제안한다. 본 연구의 아이디어는 표준 자기주의를 $O(n)$ 복잡도로 근사하기 위해 Nyström 방법을 적응적으로 활용하는 데 있다. Nyströmformer의 확장성 덕분에 수천 개의 토큰을 포함하는 긴 시퀀스에도 적용 가능하다. 우리는 GLUE 벤치마크와 IMDB 리뷰 데이터셋에서 표준 시퀀스 길이의 다양한 하류 작업에 대해 평가를 수행하였으며, 그 결과 Nyströmformer가 표준 자기주의와 비슷하거나, 일부 경우에 약간 더 우수한 성능을 보였다. 또한 Long Range Arena (LRA) 벤치마크의 긴 시퀀스 작업에서는 다른 효율적인 자기주의 방법들과 비교해도 유리한 성능을 나타냈다. 본 연구의 코드는 https://github.com/mlpen/Nystromformer 에서 공개되어 있다.