
초록
우리는 트랜스포머 모델에서 어텐션을 희소화하는 새로운 방법을 제안합니다. 이 방법은 학습 과정 중 가장 정보가 많은 토큰 표현들을 선택하도록 학습함으로써, 입력의 작업 관련 부분에 집중할 수 있습니다. 강건한 학습 가능한 상위-$k$ 연산자(robust trainable top-$k$ operator) 덕분에 시간과 메모리 복잡도를 이차에서 준선형으로 줄일 수 있었습니다. 도전적인 긴 문서 요약 작업에서 수행한 실험 결과, 우리의 간단한 베이스라인 모델이 현존하는 최고 성능(SOTA) 모델과 유사한 성능을 보였으며, 학습 가능한 풀링(trainable pooling)을 사용하면 최상의 품질을 유지하면서 학습 시 $1.8\times$ 더 빠르고, 추론 시 $4.5\times$ 더 빠르며, 디코더에서는 최대 $13\times$ 더 효율적으로 계산할 수 있었습니다.