2달 전

의료 생물학 자연어 처리를 위한 영역 특화 언어 모델 사전 학습

Yu Gu; Robert Tinn; Hao Cheng; Michael Lucas; Naoto Usuyama; Xiaodong Liu; Tristan Naumann; Jianfeng Gao; Hoifung Poon
의료 생물학 자연어 처리를 위한 영역 특화 언어 모델 사전 학습
초록

대형 신경 언어 모델(BERT와 같은)의 사전 학습은 많은 자연어 처리(NLP) 작업에서 놀라운 성과를 이끌어냈습니다. 그러나 대부분의 사전 학습 노력은 뉴스 기사와 웹과 같은 일반 도메인 코퍼스에 초점을 맞추고 있습니다. 일반적으로 받아들여지는 가정은 특정 도메인의 사전 학습도 일반 도메인 언어 모델에서 시작하면 혜택을 볼 수 있다는 것입니다. 본 논문에서는 이러한 가정을 도전하며, 바이오메디컬과 같이 충분한 비라벨 텍스트가 있는 도메인에서는 처음부터 언어 모델을 사전 학습하는 것이 일반 도메인 언어 모델의 연속적인 사전 학습보다 상당한 성능 향상을 가져온다는 것을 보여줍니다. 이를 조사하기 위해 공개된 데이터셋으로부터 포괄적인 바이오메디컬 NLP 벤치마크를 구성했습니다. 실험 결과, 특정 도메인의 사전 학습이 다양한 바이오메디컬 NLP 작업에 대한 견고한 기반 역할을 하며, 전반적으로 새로운 최고 수준의 결과를 이끌어내는 것으로 나타났습니다. 또한, 사전 학습 및 작업 특화 미세 조정에 대한 모델링 선택사항을 철저히 평가한 결과, BERT 모델에서 복잡한 태깅 방식을 사용하는 것과 같은 일부 일반적인 관행이 불필요하다는 것을 발견했습니다(예: 명명된 개체 인식(NER)). 바이오메디컬 NLP 연구를 가속화하기 위해, 우리는 커뮤니티를 위해 최고 수준의 사전 학습 모델과 작업 특화 모델을 공개하였으며, BLURB 벤치마크(바이오메디컬 언어 이해 및 추론 벤치마크의 약자) 리더보드를 https://aka.ms/BLURB 에서 제공하고 있습니다.

의료 생물학 자연어 처리를 위한 영역 특화 언어 모델 사전 학습 | 최신 연구 논문 | HyperAI초신경