17일 전
바이오메가트론: 더 큰 생물의학 분야 언어 모델
Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani

초록
생물의학 분야에 특화된 언어 모델이 급증하고 있으며, 일반 도메인 텍스트 코퍼스(예: 위키백과 및 서적) 대신 생물의학 텍스트로 사전 훈련된 언어 모델이 생물의학 도메인 기준 평가에서 더 뛰어난 성능을 보임을 보여주고 있다. 그러나 대부분의 연구는 각 도메인 언어 응용에 영향을 미치는 요인들을 깊이 있게 탐구하지 않고 있다. 또한, 특화된 모델의 모델 크기 영향에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 서브워드 어휘 집합, 모델 크기, 사전 훈련 코퍼스, 도메인 전이와 같은 다양한 요인이 도메인 언어 응용 성능에 미치는 영향을 실증적으로 분석하고 평가한다. 더 큰 도메인 코퍼스로 훈련된 더 큰 규모의 BioMegatron 모델을 통해 기준 평가에서 일관된 성능 향상을 입증하였으며, 이는 도메인 특화 언어 모델 응용에 대한 이해를 심화하는 데 기여한다. 또한, 명명된 엔티티 인식(NER), 관계 추출, 질문 응답 등 표준 생물의학 NLP 벤치마크에서 기존 최고 성능(SOTA) 모델보다 두드러진 개선을 보였다. 모델 체크포인트와 코드는 [https://ngc.nvidia.com] 및 [https://github.com/NVIDIA/NeMo]에서 제공된다.