BioBERT: 바이오의학적 텍스트 마이닝을 위한 사전 학습된 바이오의학 언어 표현 모델

생물의학 문서 마이닝은 생물의학 문헌의 수가 급속히 증가함에 따라 점점 더 중요해지고 있습니다. 자연어 처리(NLP) 기술의 발전으로 인해 연구자들 사이에서 생물의학 문헌에서 가치 있는 정보를 추출하는 것이 인기를 얻었으며, 딥 러닝은 효과적인 생물의학 문서 마이닝 모델 개발을 촉진시켰습니다. 그러나 일반 영역 말뭉치에서 생물의학 말뭉치로 단어 분포가 이동하기 때문에 NLP 기술을 생물의학 문서 마이닝에 직접 적용하면 종종 만족스러운 결과를 얻지 못합니다. 본 논문에서는 최근 도입된 사전 훈련 언어 모델인 BERT가 생물의학 말뭉치에 어떻게 적응될 수 있는지를 조사하였습니다.우리는 대규모 생물의학 말뭉치에서 사전 훈련된 BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining)를 소개합니다. BioBERT는 과제 간 거의 동일한 아키텍처를 유지하면서, 생물의학 말뭉치에서 사전 훈련되었을 때 BERT와 이전 최고 성능 모델들을 다양한 생물의학 문서 마이닝 과제에서 크게 능가합니다. BERT는 이전 최고 성능 모델들과 유사한 성능을 보이는 반면, BioBERT는 다음 세 가지 대표적인 생물의학 문서 마이닝 과제에서 크게 우수한 성능을 보입니다: 生物医学命名实体识别(0.62% F1 점수 개선), 生物医学关系抽取(2.80% F1 점수 개선),以及 生物医学问题回答(12.24% MRR 개선).분석 결과, BERT를 생물의학 말뭉치에서 사전 훈련하면 복잡한 생물의학 문장을 이해하는 데 도움이 된다는 것을 확인할 수 있었습니다. 우리는 BioBERT의 사전 훈련 가중치를 자유롭게 이용할 수 있도록 https://github.com/naver/biobert-pretrained 에 공개하였으며, BioBERT 미세 조정을 위한 소스 코드는 https://github.com/dmis-lab/biobert 에서 제공됩니다.注:在翻译“生物医学命名实体识别”、“生物医学关系抽取”和“生物医学问题回答”时,由于这些术语在韩语中没有广泛接受的对应术语,因此保留了中文表述。为了更好地适应韩语读者的习惯,建议将其替换为以下韩语术语:生物医学命名实体识别:生체 의학적 명명된 실체 인식 (Biomedical Named Entity Recognition)生物医学关系抽取:생체 의학적 관계 추출 (Biomedical Relation Extraction)生物医学问题回答:생체 의학적 질문 응답 (Biomedical Question Answering)修正后的翻译如下:우리는 분석 결과를 통해 BERT를 생물의학 말뭉치에서 사전 훈련하면 복잡한 생물의학 문장을 이해하는 데 도움이 된다는 것을 확인할 수 있었습니다. 우리는 BioBERT의 사전 훈련 가중치를 자유롭게 이용할 수 있도록 https://github.com/naver/biobert-pretrained 에 공개하였으며, BioBERT 미세 조정을 위한 소스 코드는 https://github.com/dmis-lab/biobert 에서 제공됩니다.BioBERT는 다음과 같은 세 가지 대표적인 생물의학 문서 마이닝 과제에서 크게 우수한 성능을 보입니다: - 生体 의학적 명명된 실체 인식 (Biomedical Named Entity Recognition; 0.62% F1 점수 개선),- 生体 의학적 관계 추출 (Biomedical Relation Extraction; 2.80% F1 점수 개선),- 生体 의學적 질문 응답 (Biomedical Question Answering; 12.24% MRR 개선).