MobileBERT: 자원 제한된 장치를 위한 컴팩트한 태스크 무관형 BERT

최근 자연어 처리(NLP) 분야는 수억 개의 파라미터를 가진 대규모 사전 훈련 모델을 활용함으로써 큰 성과를 거두었다. 그러나 이러한 모델들은 모델 크기가 크고 지연(latency)이 높아 자원이 제한된 모바일 장치에 배포하기 어려운 문제가 있다. 본 논문에서는 인기 있는 BERT 모델을 압축하고 가속화하기 위해 MobileBERT를 제안한다. 원래 BERT와 마찬가지로 MobileBERT도 작업에 종속되지 않으며, 단순한 미세 조정(fine-tuning)을 통해 다양한 하류 NLP 작업에 일반적으로 적용할 수 있다. 기본적으로 MobileBERT는 BERT_LARGE의 얇은 버전이지만, 뱅크레트(bottleneck) 구조를 갖추고 있으며, 자기 주의(self-attention)와 피드포워드 네트워크 간의 정교하게 설계된 균형을 제공한다. MobileBERT를 훈련하기 위해 먼저, 역방향 뱅크레트를 포함한 BERT_LARGE 구조를 가진 특수한 교사 모델(teacher model)을 훈련한 후, 이 교사 모델로부터 MobileBERT로 지식 전달(knowledge transfer)을 수행한다. 실증 연구 결과, MobileBERT는 BERT_BASE보다 크기가 4.3배 작고 속도가 5.5배 빠르며, 잘 알려진 벤치마크에서 경쟁력 있는 성능을 달성함을 확인하였다. GLUE의 자연어 추론(task)에서 MobileBERT는 GLUE 스코어 77.7을 기록했으며(BERT_BASE보다 0.6 낮음), Pixel 4 스마트폰에서 지연 시간은 62ms였다. SQuAD v1.1/v2.0 질문 응답(task)에서는 개발 데이터셋에서 F1 스코어가 각각 90.0/79.2를 달성하여 BERT_BASE보다 각각 1.5/2.1 높은 성능을 보였다.