17일 전
메가: 이동평균을 탑재한 게이트형 어텐션
Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer

초록
Transformer의 어텐션 메커니즘에서 선택된 설계 요소들, 즉 약한 유도 편향(weak inductive bias)과 이차형 계산 복잡도는 긴 시퀀스를 모델링하는 데 있어 그 적용을 제한해왔다. 본 논문에서는 위치 인지형 국소적 종속성의 유도 편향을 위치 무관형 어텐션 메커니즘에 통합하기 위해, 지수 이동 평균(exponential moving average)을 갖춘 단일 헤드 게이트드 어텐션 메커니즘인 Mega를 제안한다. 또한, 전체 시퀀스를 고정 길이의 여러 청크(chunk)로 효율적으로 분할함으로써 선형 시간 및 공간 복잡도를 제공하면서도 품질 손실이 극히 미미한 Mega의 변형을 제안한다. 긴 범위 어텐션 테스트( Long Range Arena), 신경 기계 번역, 자가회귀적 언어 모델링, 이미지 및 음성 분류를 포함한 다양한 시퀀스 모델링 벤치마크에서 수행된 광범위한 실험 결과는, Mega가 Transformer의 다양한 변형과 최신 상태 공간 모델(state space models)을 포함한 다른 시퀀스 모델들에 비해 상당한 성능 향상을 달성함을 보여준다.