11일 전
BioELECTRA: 구분기 기반 사전 학습된 생물의학 텍스트 인코더
{Malaikannan Sankarasubbu, Bhuvana Kundumani, Kamal raj Kanakarajan}

초록
최근 자연어처리(NLP) 분야에서의 사전학습 전략의 발전은 다양한 텍스트 마이닝 작업에서 모델 성능의 상당한 향상을 보여주었다. 본 연구에서는 ELECTRA에서 제안한 ‘대체된 토큰 탐지(Replaced Token Detection)’ 사전학습 기법을 적용하여 생물의학 텍스트와 어휘를 기반으로 생물의학 분야 전용 언어 모델을 처음부터 사전학습하였다. 이를 통해 생물의학 분야에 특화된 언어 인코더 모델인 BioELECTRA를 개발하였으며, 이는 ELECTRA 아키텍처를 생물의학 분야에 적합하게 조정한 모델이다. 우리는 BioELECTRA를 BLURB 및 BLUE 생물의학 NLP 벤치마크에서 평가하였으며, BLURB 벤치마크의 13개 데이터셋 전부와 BLUE 벤치마크의 4개 임상 데이터셋 전부에서 기존 모델들을 능가하며, 7개의 다양한 NLP 작업에서 최신 기준(SOTA) 성능을 달성하였다. PubMed 및 PMC 전체 논문 텍스트를 기반으로 사전학습된 BioELECTRA는 임상 데이터셋에서도 매우 뛰어난 성능을 보였다. 특히 MedNLI 데이터셋에서 기존 최고 성능 대비 1.39%의 정확도 향상(새로운 SOTA: 86.34%)과 PubMedQA 데이터셋에서 2.98%의 정확도 향상(새로운 SOTA: 64%)을 기록하며, 새로운 최고 성능을 확보하였다.