2달 전
DistilBERT, BERT의 축소 버전: 더 작고, 빠르며, 비용이 적게 들고, 가볍다.
Victor Sanh; Lysandre Debut; Julien Chaumond; Thomas Wolf

초록
대규모 사전 학습 모델에서의 전이 학습(Transfer Learning)이 자연어 처리(Natural Language Processing, NLP) 분야에서 점점 더 일반화되면서, 이러한 큰 모델을 엣지 컴퓨팅 환경이나 제약된 계산 자원에서 훈련하거나 추론하는 것이 여전히 어려움을 겪고 있습니다. 본 연구에서는 다양한 작업에서 큰 모델과 유사한 성능을 내도록 미세 조정(fine-tuning)할 수 있는 더 작은 일반 목적 언어 표현 모델인 DistilBERT를 사전 학습하는 방법을 제안합니다. 이전 대부분의 연구가 특정 작업에 대한 모델 구축을 위해 디스틸레이션(distillation)의 사용을 조사한 반면, 우리는 사전 학습 단계에서 지식 디스틸레이션(knowledge distillation)을 활용하여 BERT 모델의 크기를 40% 줄일 수 있으며, 97%의 언어 이해 능력을 유지하면서 60% 더 빠르게 작동할 수 있음을 보여줍니다. 큰 모델이 사전 학습 과정에서 배운 귀납적 편향(inductive biases)을 활용하기 위해, 언어 모델링(loss), 디스틸레이션(loss), 코사인 거리(cosine-distance loss) 손실 함수를 결합한 삼중 손실(triple loss) 함수를 도입하였습니다. 우리의 더 작은, 빠른 그리고 경량화된 모델은 사전 학습 비용이 저렴하며, 개념 증명 실험과 장치 상 비교 연구를 통해 장치 상 연산(on-device computations)에 대한 능력을 시연하였습니다.