
생물의학 문헌과 디지털 임상 기록의 급증은 비구조화된 데이터 내에서 엔티티를 식별할 뿐만 아니라 의미적으로 관련성을 파악할 수 있는 텍스트 마이닝 기술에 대한 수요를 더욱 증가시키고 있다. 본 논문에서는 명명된 실체 인식(Named Entity Recognition, NER) 및 관계 추출(Relation Extraction, RE) 모델을 포함하는 텍스트 마이닝 프레임워크를 제안하며, 이전 연구와 비교해 세 가지 주요 측면에서 확장하였다. 첫째, BioBERT 기반의 정확도 최적화 모델과 전용 특징을 활용한 완전 연결 신경망(Fully Connected Neural Network, FCNN)을 사용한 속도 최적화 모델을 포함한 두 가지 새로운 RE 모델 아키텍처를 도입하였다. 둘째, 공개 벤치마크 데이터셋에서 두 모델을 평가하여, 2012년 i2b2 임상 시제어 관계 챌린지(F1: 73.6, 전년도 최고 성능 대비 +1.2%), 2010년 i2b2 임상 관계 챌린지(F1: 69.1, +1.2%), 2019년 형질-유전자 관계 데이터셋(F1: 87.9, +8.5%), 2012년 부작용 약물 사건 약물-반응 데이터셋(F1: 90.0, +6.3%), 그리고 2018년 n2c2 복약 정보 관계 데이터셋(F1: 96.7, +0.6%)에서 각각 새로운 최고 성능(F1 점수)을 달성하였다. 셋째, 본 프레임워크의 실용적 응용 사례 두 가지를 제시한다. 하나는 생물의학 지식 그래프 구축에의 활용이며, 다른 하나는 임상 코드에 엔티티를 매핑하는 정확도 향상에의 활용이다. 이 시스템은 Spark NLP 라이브러리를 기반으로 구축되었으며, 생산 수준의 기능을 제공하고, 네이티브로 확장 가능하며 하드웨어 최적화된, 훈련 및 튜닝이 가능한 NLP 프레임워크를 제공한다.