
초록
우리는 신경망 기계 번역(NMT)에 매우 깊은 Transformer 모델을 적용하는 방법을 탐구한다. 학습을 안정화시키는 간단하면서도 효과적인 초기화 기법을 사용함으로써, 인코더 층을 최대 60층, 디코더 층을 12층까지 갖춘 표준 Transformer 기반 모델을 구축하는 것이 가능함을 보여준다. 이러한 깊은 모델들은 기준인 6층 모델 대비 최대 2.5 BLEU의 성능 향상을 달성하며, WMT14 영어-프랑스어(43.8 BLEU 및 백트랜슬레이션 적용 시 46.4 BLEU)와 WMT14 영어-독일어(30.1 BLEU) 평가에서 새로운 최고 성능 기준을 수립하였다. 코드 및 학습된 모델은 다음 주소에서 공개될 예정이다: https://github.com/namisan/exdeep-nmt.