15일 전

Nyströmformer: 자기 주의를 근사화하는 데 사용되는 Nyström 기반 알고리즘

Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh
Nyströmformer: 자기 주의를 근사화하는 데 사용되는 Nyström 기반 알고리즘
초록

Transformers는 자연어 처리 작업 전반에 걸쳐 강력한 도구로 부상하고 있다. Transformers의 놀라운 성능을 이끄는 핵심 요소는 각 특정 토큰에 대해 다른 토큰들의 영향이나 의존성을 인코딩하는 자기주의(self-attention) 메커니즘이다. 이러한 메커니즘은 매우 유용하지만, 입력 시퀀스 길이에 대해 이차 복잡도(quadratic complexity)를 가지기 때문에, 긴 시퀀스에 대한 적용이 제한되어 왔다. 이 문제는 현재 연구 커뮤니티에서 적극적으로 탐구되고 있는 주제이다. 이 제약을 극복하기 위해, 우리는 시퀀스 길이에 따라 우수한 확장성을 보이는 Nyströmformer 모델을 제안한다. 본 연구의 아이디어는 표준 자기주의를 $O(n)$ 복잡도로 근사하기 위해 Nyström 방법을 적응적으로 활용하는 데 있다. Nyströmformer의 확장성 덕분에 수천 개의 토큰을 포함하는 긴 시퀀스에도 적용 가능하다. 우리는 GLUE 벤치마크와 IMDB 리뷰 데이터셋에서 표준 시퀀스 길이의 다양한 하류 작업에 대해 평가를 수행하였으며, 그 결과 Nyströmformer가 표준 자기주의와 비슷하거나, 일부 경우에 약간 더 우수한 성능을 보였다. 또한 Long Range Arena (LRA) 벤치마크의 긴 시퀀스 작업에서는 다른 효율적인 자기주의 방법들과 비교해도 유리한 성능을 나타냈다. 본 연구의 코드는 https://github.com/mlpen/Nystromformer 에서 공개되어 있다.

Nyströmformer: 자기 주의를 근사화하는 데 사용되는 Nyström 기반 알고리즘 | 최신 연구 논문 | HyperAI초신경