
초록
우리는 Transformer 학습을 향상시키기 위해 세 가지 간단하고 정규화 중심의 개선 방안을 평가한다. 첫째, 사전 정규화 잔차 연결(PreNorm)과 작은 초기화 값을 사용하면, 웜업 없이도 큰 학습률로 검증 기반 학습이 가능함을 보여준다. 둘째, 단일 스케일 파라미터를 갖는 ℓ₂ 정규화 방식인 ScaleNorm을 제안하여 더 빠른 학습과 향상된 성능을 달성한다. 셋째, 단어 임베딩을 고정된 길이로 정규화하는 FixNorm의 효과를 재확인한다. TED Talks 기반 코퍼스에서 추출한 다섯 가지 저자원 번역 쌍에 대해 이러한 개선 사항들은 항상 수렴하며, 최신 이중 언어 기준 모델 대비 평균 +1.1 BLEU 향상을 기록하고, IWSLT'15 영어-베트남어 번역에서 새로운 기록인 32.8 BLEU를 달성한다. 실험 결과, 성능 곡선이 더 날카롭고, 기울기 노름이 더욱 일관되며, 활성화 스케일링과 디코더 깊이 사이에 선형 관계가 존재함을 관찰한다. 놀랍게도 고자원 환경(예: WMT'14 영어-독어)에서는 ScaleNorm과 FixNorm이 여전히 경쟁력 있는 성능을 보이지만, PreNorm은 성능이 저하됨을 확인했다.