Synthesizer: Transformer 모델에서 자기 주의(M self-attention)의 재고

점 곱(self-attention) 기반의 어텐션은 최첨단 트랜스포머 모델에서 핵심적이고 필수적인 요소로 널리 인식되어 왔다. 그러나 정말로 그 필요성이 있는가? 본 논문은 점 곱 기반의 자기 어텐션 메커니즘이 트랜스포머 모델 성능에 기여하는 진정한 중요성과 역할을 탐구한다. 광범위한 실험을 통해 우리는 (1) 무작위 정렬 행렬이 예상치 못하게 높은 경쟁력을 보이며, (2) 토큰-토큰(query-key) 상호작용을 통해 어텐션 가중치를 학습하는 것은 유용하지만, 예상보다는 덜 중요한 요소임을 발견하였다. 이를 바탕으로, 본 연구는 토큰-토큰 상호작용 없이 합성된 어텐션 가중치를 학습하는 모델인 \textsc{Synthesizer}를 제안한다. 실험 결과, 다양한 작업(기계 번역, 언어 모델링, 텍스트 생성, GLUE/SuperGLUE 벤치마크 등)에서 기존 트랜스포머 모델과 비교했을 때, 단순한 Synthesizer 모델이 매우 경쟁력 있는 성능을 달성함을 확인하였다. 또한 점 곱 어텐션과 결합했을 때, Synthesizer는 일관되게 트랜스포머 모델을 능가하는 성능을 보였다. 더 나아가, 동적 컨볼루션(Dynamic Convolutions)과의 추가 비교를 통해, 단순한 무작위 Synthesizer는 60% 더 빠르며, 난이도(perplexity)를 상대적으로 3.5% 향상시킴을 입증하였다. 마지막으로, 단순한 인수 분해(factorized) 형태의 Synthesizer가 인코딩 전용 작업에서 Linformer보다 뛰어난 성능을 발휘함을 보였다.