
초록
우리는 Transformer(본워니 등, 2017)를 위한 파라미터 공유 방법을 제안한다. 제안하는 접근법은 보편적인 기법인 모든 레이어에 대해 하나의 레이어의 파라미터를 공유하는 방식(예: Universal Transformers, Dehghani 등, 2019)을 완화함으로써 계산 시간 효율성을 향상시키는 것을 목표로 한다. 본 연구에서는 각 레이어에 파라미터를 할당하기 위한 세 가지 전략—Sequence, Cycle, Cycle(rev)—을 제안한다. 실험 결과, 제안된 전략들이 파라미터 크기와 계산 시간 측면에서 높은 효율성을 보였다. 또한, 최근 WMT 경쟁에서 사용되는 대량의 학습 데이터 환경에서도 제안된 전략이 효과적임을 확인하였다.