17일 전
임상 노트에서 온톨로지와 약한 지도를 활용한 희귀 질환 식별
Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu

초록
임상 노트에서 자연어 처리(NLP)를 활용한 희귀질환 식별은 기계학습에 활용 가능한 사례 수가 적고 임상 전문가의 데이터 주석(annotation)이 필요하기 때문에 도전적이다. 본 연구에서는 온톨로지와 약한 감독(weak supervision)을 활용하는 방법을 제안한다. 제안하는 접근법은 두 단계로 구성된다. (i) 텍스트 → UMLS: 자연어 처리 도구(예: SemEHR)와 사용자 정의 규칙 및 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT) 기반의 문맥적 표현을 활용한 약한 감독을 통해 임상 텍스트에서 언급된 표현을 통합 의학 용어체계(UMLS)의 개념과 연결한다. (ii) UMLS → ORDO: UMLS 개념을 희귀질환 온톨로지인 오르파넷 희귀질환 온톨로지(Orphanet Rare Disease Ontology, ORDO)에 존재하는 희귀질환과 매칭한다. 미국 MIMIC-III 집중치료실 퇴원 요약문을 사례로 활용한 결과, 도메인 전문가의 주석 데이터 없이도 약한 감독을 통해 텍스트 → UMLS 프로세스의 성능을 크게 향상시킬 수 있음을 확인하였다. 분석 결과, 전체 파이프라인을 통해 퇴원 요약문을 처리하면, 병원 입원 기록에서 수동으로 코드화된 ICD 코드로는 대부분 포착되지 않은 희귀질환 사례를 효과적으로 탐지할 수 있음을 보였다.