
시각 분야에서 자기 주의(self-attention)와 순수 다층 퍼셉트론(MLP) 모델의 최근 발전은 더 적은 인덕티브 바이어스(유추 편향)로도 탁월한 성능을 달성할 수 있는 잠재력을 보여주고 있다. 이러한 모델들은 일반적으로 원시 데이터로부터 공간 위치 간의 상호작용을 학습하는 데 기반을 두고 있다. 그러나 자기 주의와 MLP의 복잡도는 이미지 크기가 증가함에 따라 제곱적으로 증가하기 때문에, 고해상도 특징이 요구되는 경우 모델의 확장이 어렵다는 한계가 있다. 본 논문에서는 로그-선형 복잡도를 갖는 주파수 도메인에서 장기적인 공간적 의존성을 학습할 수 있는 개념적으로 단순하면서도 계산적으로 효율적인 아키텍처인 글로벌 필터 네트워크(Global Filter Network, GFNet)를 제안한다. 제안하는 아키텍처는 비전 트랜스포머(Vision Transformer)의 자기 주의 레이어를 세 가지 핵심 연산으로 대체한다: 2차원 이산 푸리에 변환(2D discrete Fourier transform), 주파수 도메인 특징과 학습 가능한 글로벌 필터 간의 원소별 곱셈(element-wise multiplication), 그리고 2차원 역 푸리에 변환(2D inverse Fourier transform). 이미지넷(ImageNet) 및 하류 작업에서 제안 모델의 정확도와 복잡도 간의 우수한 트레이드오프를 입증하였다. 실험 결과 GFNet이 효율성, 일반화 능력, 그리고 강건성 측면에서 트랜스포머 기반 모델과 CNN과 경쟁 가능한 대안이 될 수 있음을 보였다. 코드는 https://github.com/raoyongming/GFNet 에서 공개되어 있다.