TinyBERT: BERT의 압축을 통한 자연어 이해

언어 모델 사전 훈련, 예를 들어 BERT와 같은 기법은 자연어 처리(NLP) 작업의 성능을 크게 향상시켰다. 그러나 사전 훈련된 언어 모델은 일반적으로 계산 비용이 크기 때문에 자원이 제한된 장치에서 효율적으로 실행하는 것이 어렵다. 정확도를 유지하면서 추론 속도를 가속화하고 모델 크기를 축소하기 위해, 본 연구에서는 Transformer 기반 모델의 지식 증류(Knowledge Distillation, KD)에 특화된 새로운 Transformer 증류 방법을 제안한다. 이 새로운 증류 방법을 활용함으로써, 대규모의 교사 모델인 BERT에 포함된 풍부한 지식을 작은 학생 모델인 Tiny-BERT로 효과적으로 전달할 수 있다. 이후 본 연구는 사전 훈련 단계와 작업 특화 학습 단계에서 모두 Transformer 증류를 수행하는 새로운 이단계 학습 프레임워크를 도입한다. 이 프레임워크는 TinyBERT가 BERT 내의 일반 도메인 지식과 작업 특화 지식을 모두 효과적으로 학습할 수 있도록 보장한다.4층 구조의 TinyBERT는 실험적으로 매우 효과적이며, GLUE 벤치마크에서 교사 모델인 BERTBASE의 성능의 96.8% 이상을 달성하면서 모델 크기는 7.5배 작고, 추론 속도는 9.4배 빠르다. 또한, 4층 구조의 최신 기준 모델들에 비해 파라미터 수는 약 28%, 추론 시간은 약 31%에 불과하면서도 훨씬 우수한 성능을 보인다. 더불어 6층 구조의 TinyBERT는 교사 모델인 BERTBASE와 동등한 성능을 달성한다.