17일 전
지식을 통한 생물의학 전처리 언어 모델의 개선
Zheng Yuan, Yijia Liu, Chuanqi Tan, Songfang Huang, Fei Huang

초록
사전 학습된 언어 모델은 자연어 처리 분야의 다양한 작업에서 성공을 거두었다. 많은 연구들이 언어 모델에 지식을 통합하는 방안을 탐구하고 있다. 생물의학 분야에서는 전문가들이 수십 년에 걸쳐 대규모 지식 기반을 구축해왔다. 예를 들어, 통합 의학어휘체계(UMLS)는 수백만 개의 엔티티와 그 동의어를 포함하며, 엔티티 간 수백 가지의 관계를 정의하고 있다. 이러한 지식을 활용하면 이름 붙여진 엔티티 인식(NER) 및 관계 추출과 같은 다양한 후행 작업에 유익할 수 있다. 이를 위해 우리는 UMLS 지식 기반에서 지식을 명시적으로 활용하는 생물의학 사전 학습 언어 모델인 KeBioLM을 제안한다. 구체적으로, PubMed 초록에서 엔티티를 추출하고 이를 UMLS에 연결한다. 이후 텍스트만을 기반으로 한 인코딩 레이어를 통해 엔티티 표현을 학습한 후, 텍스트-엔티티 융합 인코딩을 적용하여 엔티티 표현을 통합한다. 또한 엔티티 탐지와 엔티티 연결을 위한 두 가지 추가 학습 목표를 도입한다. BLURB 벤치마크에서의 이름 붙여진 엔티티 인식 및 관계 추출 실험 결과는 제안한 방법의 효과성을 입증한다. 수집한 탐색 데이터셋을 활용한 추가 분석 결과, 본 모델이 의학 지식을 더 잘 모델링할 수 있음을 확인할 수 있었다.