한 번의 절단으로 모든 것을 완성하기: 희소화된 사전 학습된 언어 모델

기반 Transformer 언어 모델은 자연어 처리 분야에서 다양한 응용에 활용되고 있으나, 효율성이 낮고 배포가 어렵다는 문제를 안고 있다. 최근 들어 대규모 Transformer 기반 모델을 타겟 하드웨어에서 더 효율적으로 구현하기 위해 여러 압축 알고리즘이 제안되어 왔다. 본 연구에서는 가중치 차단(Weight Pruning)과 모델 다수화(Model Distillation)을 통합하여 희소(pre-trained) Transformer 언어 모델을 훈련하는 새로운 방법을 제안한다. 이러한 희소 사전 훈련 모델은 다양한 작업에 대해 전이 학습(Transfer Learning)에 활용될 수 있으며, 동시에 희소성 패턴을 유지할 수 있다. 우리는 기존의 세 가지 주요 아키텍처를 활용하여 희소 사전 훈련된 BERT-Base, BERT-Large 및 DistilBERT 모델을 생성하였다. 또한, 훈련한 압축된 희소 사전 훈련 모델이 다섯 가지 다른 하류 자연어 처리 작업에 대해 최소한의 정확도 손실로 지식을 효과적으로 전이함을 실험적으로 입증하였다. 더불어, 양자화 인식 훈련(Quantization-Aware Training)을 활용하여 희소 모델의 가중치를 8비트 정밀도로 추가 압축하는 방법도 제시한다. 예를 들어, SQuADv1.1 데이터셋에 맞춤형 훈련된 희소 사전 훈련 BERT-Large 모델을 8비트로 양자화할 경우, 인코더 부분의 압축 비율이 40배에 달하면서 정확도 손실은 1% 미만으로 유지된다. 본 연구 결과에 따르면, BERT-Base, BERT-Large, DistilBERT에 대해 기존의 어떤 방법보다도 뛰어난 압축률 대 정확도 비율을 달성한 것으로 확인된다.