11일 전
FNet: 푸리에 변환을 통한 토큰 혼합
James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon

초록
우리는 자기주의(self-attention) 하위층을 입력 토큰을 '혼합(mix)'하는 간단한 선형 변환으로 대체함으로써, 정확도 손실을 최소화하면서도 트랜스포머 인코더 아키텍처의 속도를 향상시킬 수 있음을 보여준다. 이러한 선형 믹서(linear mixers)와 피드포워드 계층 내 표준 비선형성(nonlinearities)의 조합은 여러 텍스트 분류 작업에서 의미 관계를 효과적으로 모델링할 수 있음을 입증한다. 특히 놀라운 점은, 트랜스포머 인코더의 자기주의 하위층을 매개변수화되지 않은 표준 푸리에 변환(Fourier Transform)으로 대체했을 때, GLUE 벤치마크에서 BERT 모델과 비교해 92~97%의 정확도를 달성하면서도 GPU에서는 80%, TPU에서는 70% 더 빠르게 학습된다는 점이다. 더 긴 입력 길이에서는 FNet 모델의 성능 향상이 더욱 두드러진다. 장거리 범위 벤치마크(Long Range Arena)에서 '효율적'으로 설계된 트랜스포머들과 비교했을 때, FNet은 가장 정확도가 높은 모델과 비슷한 성능을 보이며, GPU에서는 모든 시퀀스 길이에서 가장 빠른 모델을 앞서고, TPU에서는 상대적으로 짧은 길이에서는 동일한 성능을 달성한다. 마지막으로, FNet은 메모리 사용량이 적고, 특히 모델 크기가 작을 때 매우 효율적이다. 고정된 속도 및 정확도 예산 하에서 소형 FNet 모델은 전통적인 트랜스포머 모델보다 우수한 성능을 보인다.