17일 전

온톨로지 기반의 약한 감독 희귀 질환 진단: 임상 노트에서의 탐지

Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu
온톨로지 기반의 약한 감독 희귀 질환 진단: 임상 노트에서의 탐지
초록

계산적 텍스트 페노타이핑은 임상 노트에서 특정 질환 및 특성에 해당하는 환자를 식별하는 기법이다. 희귀 질환은 기계 학습에 사용 가능한 사례가 적고, 도메인 전문가의 데이터 주석이 필요하기 때문에 식별이 어렵다. 본 연구에서는 이분형 트랜스포머(Bidirectional Transformers, 예: BERT)를 활용한 최신 사전 훈련된 문맥적 표현과 온톨로지를 결합한 방법을 제안한다. 온톨로지 기반 프레임워크는 두 단계로 구성된다. (i) 텍스트 → UMLS: 통합 의학 용어 체계(UMLS)의 개념과 문맥적으로 연결된 언급을 추출하는 과정으로, SemEHR이라는 명명된 엔티티 인식 및 연결(NER+L) 도구를 사용하며, 사용자 정의 규칙과 문맥적 언급 표현을 활용한 약한 감독(weak supervision) 기법을 적용한다. (ii) UMLS → ORDO: UMLS 개념을 오르파넷 희귀질환 온톨로지(ORDO)에 포함된 희귀 질환과 매칭하는 과정이다. 본 연구에서는 도메인 전문가의 주석 데이터 없이도 페노타입 확인 모델을 학습하여 텍스트 → UMLS 연결 성능을 향상시키기 위한 약한 감독 접근법을 제안한다. 제안된 방법은 미국과 영국의 두 기관에서 수집한 세 가지 임상 데이터셋(MIMIC-III 퇴원 요약문, MIMIC-III 영상의학 보고서, NHS Tayside 뇌 영상 보고서)을 대상으로 평가되었으며, 주석이 제공된 데이터를 사용하였다. 기존의 NER+L 도구인 SemEHR에 비해 텍스트 → UMLS 연결의 정밀도가 크게 향상되었으며(정밀도 절대 점수 약 30~50% 증가), 재현율은 거의 손실되지 않았다. MIMIC-III 및 NHS Tayside의 영상의학 보고서에 대한 결과는 퇴원 요약문과 일관성을 보였다. 전체 파이프라인은 임상 노트를 처리하여 구조화된 데이터(수동으로 할당된 ICD 코드)에서 대부분 포착되지 않은 희귀 질환 사례를 효과적으로 추출할 수 있었다. 본 연구는 약한 감독 접근법의 유용성을 논의하며, 향후 연구 방향을 제안한다.

온톨로지 기반의 약한 감독 희귀 질환 진단: 임상 노트에서의 탐지 | 최신 연구 논문 | HyperAI초신경