
초록
과도하게 파라미터화된 트랜스포머 네트워크는 기계 번역, 언어 모델링, 질의 응답과 같은 다양한 자연어 처리 작업에서 최첨단 성능을 달성하고 있다. 이러한 모델은 수억 개의 파라미터를 포함하고 있어 막대한 계산 자원을 요구하며, 과적합(overfitting)에 취약한 경향이 있다. 본 연구에서는 훈련 중 정규화(regularization) 효과를 가지며 추론 시 효율적인 프루닝(pruning)을 가능하게 하는 구조적 드롭아웃(structured dropout)의 한 형태인 LayerDrop을 탐구한다. 특히, 하나의 대규모 네트워크로부터 어떤 깊이의 하위 네트워크(sub-network)를 미세 조정(finetuning) 없이 선택할 수 있으며, 성능에 미치는 영향이 제한적임을 보여준다. 제안하는 방법의 효과성을 기계 번역, 언어 모델링, 요약, 질의 응답, 언어 이해 벤치마크에서 최첨단 성능을 향상시킴으로써 입증한다. 더불어, 기존의 초기 학습(from scratch) 또는 다이스틸레이션(distillation)을 사용하는 것과 비교해, 더 높은 품질의 소형 BERT 유사 모델을 얻을 수 있음을 보여준다.