
트랜스포머(Transformer)의 등장은 자연어 처리 분야에서 최근 이루어진 다수의 기술적 진보를 이끌어낸 핵심적인 요인으로 평가할 수 있다. 그러나 최근 연구에서 밝혀진 바와 같이, 이러한 모델은 성능 향상은 크지만 파라미터 수가 지나치게 많아 파라미터 효율성이 낮고 학습 과정에서 계산적으로 매우 비효율적인 문제를 안고 있다. 사전 훈련된 심층적 맥락화 단어 표현 인코더에서 파라미터 공유 기법의 성공 사례에 영감을 받아, 특히 기계 번역과 같은 시퀀스-투-시퀀스 작업을 위한 인코더-디코더 구조의 트랜스포머 모델에 있어 파라미터 공유 기법을 탐구한다. 다양한 파라미터 공유 및 감소 기법을 체계적으로 분석한 후, 새로 제안한 '샌드위치형(Sandwich-style)' 파라미터 공유 기법과 자기 주의(self-attentive) 임베딩 인수분해(SAFE) 기법을 결합한 파라미터 효율적인 트랜스포머 기반 모델인 Subformer를 개발하였다. 기계 번역, 개괄적 요약, 언어 모델링 등 다양한 실험을 통해 Subformer가 훨씬 적은 파라미터 수를 사용함에도 불구하고 기존 트랜스포머 모델을 능가함을 입증하였다. WMT'14 영어-독어 평가 세트에서, 파라미터 수를 40% 줄인 상황에서도 트랜스포머 기반 모델과 동등하거나 때로는 +0.1 BLEU 점수로 우수한 성능을 달성하였으며, 트랜스포머-빅 모델과 비교해도 파라미터 수를 40% 줄이면서도 동등한 성능을 보였고, 파라미터 수를 1,200만 개 더 줄인 경우 0.7 BLEU 점수 우위를 기록하였다. 또한 표준 트랜스포머-XL 모델을 능가하여 파라미터 수를 37% 줄인 상태에서 퍼플렉서티(Perplexity)를 3.6 점 낮추는 데 성공하였다.