17일 전

임상 노트에서 온톨로지와 약한 지도를 활용한 희귀 질환 식별

Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu
임상 노트에서 온톨로지와 약한 지도를 활용한 희귀 질환 식별
초록

임상 노트에서 자연어 처리(NLP)를 활용한 희귀질환 식별은 기계학습에 활용 가능한 사례 수가 적고 임상 전문가의 데이터 주석(annotation)이 필요하기 때문에 도전적이다. 본 연구에서는 온톨로지와 약한 감독(weak supervision)을 활용하는 방법을 제안한다. 제안하는 접근법은 두 단계로 구성된다. (i) 텍스트 → UMLS: 자연어 처리 도구(예: SemEHR)와 사용자 정의 규칙 및 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT) 기반의 문맥적 표현을 활용한 약한 감독을 통해 임상 텍스트에서 언급된 표현을 통합 의학 용어체계(UMLS)의 개념과 연결한다. (ii) UMLS → ORDO: UMLS 개념을 희귀질환 온톨로지인 오르파넷 희귀질환 온톨로지(Orphanet Rare Disease Ontology, ORDO)에 존재하는 희귀질환과 매칭한다. 미국 MIMIC-III 집중치료실 퇴원 요약문을 사례로 활용한 결과, 도메인 전문가의 주석 데이터 없이도 약한 감독을 통해 텍스트 → UMLS 프로세스의 성능을 크게 향상시킬 수 있음을 확인하였다. 분석 결과, 전체 파이프라인을 통해 퇴원 요약문을 처리하면, 병원 입원 기록에서 수동으로 코드화된 ICD 코드로는 대부분 포착되지 않은 희귀질환 사례를 효과적으로 탐지할 수 있음을 보였다.

임상 노트에서 온톨로지와 약한 지도를 활용한 희귀 질환 식별 | 최신 연구 논문 | HyperAI초신경