생물의학 텍스트 마이닝을 위한 신경망 기반 명명된 실체 인식 및 다중 유형 정규화 도구
생물의학 문헌의 양은 막대하며 빠르게 증가하고 있으며, 정확한 텍스트 마이닝 기술은 연구자들이 문헌에서 유용한 정보를 효율적으로 추출하는 데 도움이 될 수 있다. 그러나 현재 텍스트 마이닝 도구인 tmTool과 ezTag에서 사용되는 기존의 명명된 실체 인식(Named Entity Recognition, NER) 모델은 충분히 효과적이지 못하며, 새로운 실체를 정확히 탐지하지 못한다. 또한 기존의 텍스트 마이닝 도구는 다중 유형의 명명된 실체 인식 결과에서 흔히 나타나는 겹치는 실체(overlapping entities)를 고려하지 않고 있다. 본 연구에서는 신경망 기반의 생물의학 명명된 실체 인식 및 다중 유형 정규화 도구인 BERN을 제안한다. BERN은 기존의 실체를 인식할 뿐만 아니라 새로운 실체를 탐지할 수 있는 고성능 BioBERT 기반의 명명된 실체 인식 모델을 사용한다. 또한 겹치는 실체의 유형을 식별하기 위해 확률 기반의 결정 규칙을 개발하였다. 더불어, 각 인식된 실체에 고유한 식별자를 부여하기 위해 다양한 명명된 실체 정규화 모델을 BERN에 통합하였다. BERN은 PubMed 논문이나 원시 텍스트 내의 실체를 태깅하기 위한 웹 서비스를 제공한다. 연구자들은 BERN 웹 서비스를 활용하여 새로운 명명된 실체 탐지, 정보 검색, 질문 응답, 관계 추출 등의 텍스트 마이닝 작업을 수행할 수 있다. BERN의 애플리케이션 프로그래밍 인터페이스(API) 및 동작 예시는 공개적으로 제공되며, https://bern.korea.ac.kr 에서 확인할 수 있다.