MUSE: 시퀀스에서 시퀀스 학습을 위한 병렬 다중 스케일 어텐션

시퀀스에서 시퀀스 학습(sequence-to-sequence learning)의 맥락에서, 자기주의(self-attention) 메커니즘은 매우 효과적임이 입증되었으며, 다양한 작업에서 상당한 성능 향상을 이끌어냈다. 그러나 자기주의 메커니즘 역시 자체적인 한계를 가지고 있다. 자기주의는 매우 긴 의존 관계를 모델링할 수는 있으나, 깊은 계층에서 주의 집중이 단일 토큰에 과도하게 집중되는 경향이 있어, 국소 정보의 충분한 활용이 어려워지고, 긴 시퀀스를 효과적으로 표현하는 데 어려움이 발생한다. 본 연구에서는 시퀀스 데이터에 대해 병렬적 다중 스케일 표현 학습(parallel multi-scale representation learning)을 탐구하며, 장거리와 단거리 언어 구조를 동시에 포착하는 것을 목표로 한다. 이를 위해 병렬 다중 스케일 주의(MUSE: Parallel MUlti-Scale attEntion)와 MUSE-simple을 제안한다. MUSE-simple은 병렬 다중 스케일 시퀀스 표현 학습의 핵심 아이디어를 담고 있으며, 자기주의와 포인트와이즈 변환(pointwise transformation)을 활용하여 다양한 스케일에서 시퀀스를 병렬로 인코딩한다. MUSE는 MUSE-simple을 기반으로 하여 컨볼루션(convolution)과 자기주의를 결합함으로써, 보다 다양한 스케일에서 시퀀스 표현을 학습하는 방식을 탐색한다. 본 연구는 기계 번역(machine translation)에 초점을 맞추었으며, 특히 긴 시퀀스에서 기존 Transformer 모델에 비해 상당한 성능 향상을 달성하였다. 더욱 중요한 점은, 개념적으로 간단해 보이지만 실제로 성공하기 위해서는 정교한 고려가 필요하며, 다중 스케일 주의는 통일된 의미 공간(unified semantic space) 위에 구축되어야 한다는 점을 발견했다. 일반적인 설정 하에서 제안된 모델은 상당한 성능을 기록하며, 세 가지 주요 기계 번역 작업에서 이전 모든 모델을 능가하였다. 또한 MUSE는 병렬 구조를 가지므로 추론 속도 향상의 잠재력이 있다. 코드는 https://github.com/lancopku/MUSE 에서 공개될 예정이다.