푸리에 트랜스포머: FFT 연산자를 이용한 시퀀스 중복 제거를 통한 고속 장거리 모델링

트랜스포머 모델은 자체 주의(self-attention) 모듈이 시퀀스 길이에 대해 이차 시간 및 공간 복잡도를 가지기 때문에 계산적으로 매우 부담스럽고, 긴 시퀀스에 대해서는 실질적으로 비용이 너무 높아 사용이 어렵다는 점이 잘 알려져 있다. 많은 연구자들이 이 한계를 극복하기 위해 새로운 형태의 자체 주의 구조를 설계하거나 새로운 파라미터를 도입하는 데 집중해 왔지만, 그중 상당수는 대규모 사전 훈련된 모델의 가중치를 상속받는 것을 방해한다. 본 연구에서는 트랜스포머의 비효율성 문제를 다른 관점에서 접근한다. 우리는 기존의 빠른 푸리에 변환(Fast Fourier Transform, FFT) 연산자를 활용하여 숨겨진 시퀀스의 중복성을 점진적으로 제거함으로써 이산 코사인 변환(Discrete Cosine Transform, DCT)을 수행하는 간단하면서도 효과적인 방법인 푸리에 트랜스포머(Fourier Transformer)를 제안한다. 푸리에 트랜스포머는 계산 비용을 크게 줄일 수 있으며, 다양한 대규모 사전 훈련 모델의 가중치를 그대로 상속할 수 있는 능력을 유지한다. 실험 결과, 긴 범위 모델링 벤치마크인 LRA에서 본 모델은 모든 트랜스포머 기반 모델 중 최고 성능을 기록하였으며, 속도와 메모리 사용 측면에서 두드러진 개선 효과를 보였다. 또한 CNN/DailyMail 및 ELI5와 같은 생성형 시퀀스-투-시퀀스 작업에서는 BART의 가중치를 상속함으로써 표준 BART 및 기타 효율적인 모델들을 모두 초월하는 성능을 달성하였다. 본 연구의 코드는 공개되어 있으며, https://github.com/LUMIA-Group/FourierTransformer 에서 확인할 수 있다.