초록
우리는 트랜스포머 모델 내에서 어텐션을 희소화하기 위한 새로운 방법을 제안한다. 이 방법은 학습 과정에서 입력 데이터의 가장 정보가 풍부한 토큰 표현들을 자동으로 선택함으로써, 입력의 작업 특화 부분에 집중할 수 있도록 한다. 강력한 학습 가능한 top-$k$ 연산자 덕분에 시간 및 메모리 복잡도를 이차원에서 부분선형으로 감소시켰다. 도전적인 긴 문서 요약 작업에 대한 실험 결과, 단순한 기준 모델조차 현재의 최고 성능(SOTA) 수준과 유사한 성능을 보였으며, 학습 가능한 풀링을 도입함으로써 그 우수한 품질을 유지하면서도 훈련 시 1.8배 빠르고, 추론 시 4.5배 빠르며, 디코더 내에서 최대 13배 더 계산 효율적인 성능을 달성할 수 있었다.