
초록
현재의 많은 자연어처리(NLP) 기법들이 임상 환경에서 활용되는 것을 방해하는 가장 큰 도전 과제 중 하나는 공개 데이터셋의 부족이다. 본 연구에서는 의료 분야에서 자연어 이해를 위한 사전 훈련을 목적으로 하여 약어 해석(abbreviation disambiguation)에 특화된 대규모 의료 텍스트 데이터셋인 MeDAL을 제안한다. 우리는 이 데이터셋을 기반으로 일반적인 아키텍처를 가진 여러 모델을 사전 훈련하였으며, 후속 의료 작업에 대해 미세조정(fine-tuning)을 수행할 때 이러한 사전 훈련이 성능 향상과 수렴 속도 향상에 기여함을 실험적으로 입증하였다.