
초록
병렬화 가능한 주의 네트워크를 사용함으로써 신경 트랜스포머는 매우 빠르게 학습할 수 있습니다. 그러나 자기 회귀 구조와 디코더에서의 자기 주의(self-attention) 때문에 디코딩 과정이 느려집니다. 이 문제를 완화하기 위해, 우리는 신경 트랜스포머의 디코더에서 자기 주의 네트워크를 대체하는 평균 주의 네트워크를 제안합니다. 평균 주의 네트워크는 두 개의 층으로 구성되며, 이전 위치에 대한 의존성을 모델링하는 평균 층과 평균 층 위에 쌓여 제안된 주의 네트워크의 표현력을 향상시키는 게이팅 층을 포함합니다. 우리는 이 네트워크를 신경 트랜스포머의 디코더 부분에 적용하여 원래 타겟 사이드 자기 주의 모델을 대체합니다. 마스킹 기법과 동적 프로그래밍을 통해 우리의 모델은 학습 시간과 번역 성능에 거의 손실 없이 원래 버전보다 4배 이상 빠른 문장 디코딩을 가능하게 합니다. WMT17 번역 작업에서 6개 다른 언어 쌍에 대해 일련의 실험을 수행한 결과, 우리는 디코딩 시 강건하고 일관된 속도 향상을 얻었습니다.