협소한 생물의학적 Transformer의 효과성에 관한 연구

생물의학 문서 코퍼스를 기반으로 사전 훈련된 언어 모델, 예를 들어 BioBERT와 같은 모델들은 최근 생물의학 분야의 하류 작업에서 희망적인 성과를 보여주고 있다. 그러나 기존의 많은 사전 훈련 모델들은 임베딩 크기, 은닉 차원, 레이어 수 등의 요인으로 인해 자원 소모가 크고 계산적으로 부담이 큰 경향이 있다. 자연어 처리(NLP) 커뮤니티는 가지치기, 양자화, 지식 증류(knowledge distillation)와 같은 기술을 활용하여 이러한 모델을 압축하는 다양한 전략을 개발해 왔으며, 그 결과 훨씬 빠르고 작으며 실용적으로 사용하기 쉬운 모델들이 등장했다. 본 논문에서도 이러한 맥락을 따르며, 생물의학 교사 모델에서 지식 증류를 통해 또는 Pubmed 데이터셋을 대상으로 마스크 언어 모델링(Masked Language Modelling, MLM) 목적함수를 통한 지속적 학습(continual learning)을 통해 도출된 여섯 가지 경량 모델, 즉 BioDistilBERT, BioTinyBERT, BioMobileBERT, DistilBioBERT, TinyBioBERT, CompactBioBERT를 제안한다. 본 연구에서는 제안한 모든 모델을 세 가지 생물의학 작업에 대해 평가하고, BioBERT-v1.1과의 비교를 통해 대형 모델과 비슷한 성능을 보이는 효율적인 경량 모델을 구축하였다. 모든 모델은 공개적으로 our Huggingface 프로필(https://huggingface.co/nlpie)에서 이용 가능하며, 실험을 수행하는 데 사용된 코드는 https://github.com/nlpie-research/Compact-Biomedical-Transformers에서 공개될 예정이다.