17일 전

관계 추출을 활용한 보다 심층적인 임상 문서 이해

Hasham Ul Haq, Veysel Kocaman, David Talby
관계 추출을 활용한 보다 심층적인 임상 문서 이해
초록

생물의학 문헌과 디지털 임상 기록의 급증은 비구조화된 데이터 내에서 엔티티를 식별할 뿐만 아니라 의미적으로 관련성을 파악할 수 있는 텍스트 마이닝 기술에 대한 수요를 더욱 증가시키고 있다. 본 논문에서는 명명된 실체 인식(Named Entity Recognition, NER) 및 관계 추출(Relation Extraction, RE) 모델을 포함하는 텍스트 마이닝 프레임워크를 제안하며, 이전 연구와 비교해 세 가지 주요 측면에서 확장하였다. 첫째, BioBERT 기반의 정확도 최적화 모델과 전용 특징을 활용한 완전 연결 신경망(Fully Connected Neural Network, FCNN)을 사용한 속도 최적화 모델을 포함한 두 가지 새로운 RE 모델 아키텍처를 도입하였다. 둘째, 공개 벤치마크 데이터셋에서 두 모델을 평가하여, 2012년 i2b2 임상 시제어 관계 챌린지(F1: 73.6, 전년도 최고 성능 대비 +1.2%), 2010년 i2b2 임상 관계 챌린지(F1: 69.1, +1.2%), 2019년 형질-유전자 관계 데이터셋(F1: 87.9, +8.5%), 2012년 부작용 약물 사건 약물-반응 데이터셋(F1: 90.0, +6.3%), 그리고 2018년 n2c2 복약 정보 관계 데이터셋(F1: 96.7, +0.6%)에서 각각 새로운 최고 성능(F1 점수)을 달성하였다. 셋째, 본 프레임워크의 실용적 응용 사례 두 가지를 제시한다. 하나는 생물의학 지식 그래프 구축에의 활용이며, 다른 하나는 임상 코드에 엔티티를 매핑하는 정확도 향상에의 활용이다. 이 시스템은 Spark NLP 라이브러리를 기반으로 구축되었으며, 생산 수준의 기능을 제공하고, 네이티브로 확장 가능하며 하드웨어 최적화된, 훈련 및 튜닝이 가능한 NLP 프레임워크를 제공한다.

관계 추출을 활용한 보다 심층적인 임상 문서 이해 | 최신 연구 논문 | HyperAI초신경