12일 전

임상 자연어 처리에서의 자동 질환 정규화 문제 도전 과제

{Robert Leaman, Zhiyong Lu, Ritu Khare}
초록

배경전자 건강 기록(electronic health records, EHR) 내 임상 내역에서 질환과 같은 핵심 변수를 식별하는 것은 임상 실무 및 생물의학 연구에 광범위한 응용 가능성을 지닌다. 기존 연구들은 임상 내역에서의 질환 명명 엔티티 인식(Named Entity Recognition, NER) 및 정규화(또는 지정, grounding) 성능이 생물의학 논문에 비해 저조함을 보여왔다. 본 연구에서는 이러한 성능 차이의 원인을 규명하고, 일반화 가능한 해결 방안을 제시하고자 한다.방법우리는 임상 내역 텍스트와 생물의학 논문 간 어휘의 풍부함을 비교하기 위해 폐쇄성 성질(closure properties)을 활용한다. 질환 NER 및 정규화 작업 모두 기계 학습 기반 접근법을 사용한다. 본 연구의 NER 방법론은 풍부한 특징을 활용한 선형 체인 조건부 확률 필드(Linear-chain Conditional Random Fields)에 기반하며, NER 시스템의 어휘 지식을 향상시키기 위해 여러 개선점을 도입한다. 정규화 방법론은 기존에 임상 데이터에 적용된 적이 없는 쌍별 학습(learning to rank) 기반 접근법을 사용하여, 훈련 데이터로부터 직접적으로 용어 변형(term variation)을 자동으로 학습한다.결과전체 어휘 크기는 임상 내역과 생물의학 논문 사이에 유사하지만, 임상 내역은 질환을 묘사할 때 더 풍부한 용어 체계를 사용하는 것으로 나타났다. 본 연구에서 제안하는 시스템인 DNorm-C를 최근 ShARe/CLEF eHealth 과제의 임상 내역 데이터에 적용하여 질환 언급을 탐지하였다. NER(엄격한 스팬만 고려)의 경우 정밀도(precision) = 0.797, 재현율(recall) = 0.713, F-점수(F-score) = 0.753을 달성하였다. 정규화 작업(엄격한 스팬 + 개념)에서는 정밀도 = 0.712, 재현율 = 0.637, F-점수 = 0.672를 기록하였다. 본 논문에서 제시한 개선 사항은 NER의 F-점수를 0.039, 정규화의 F-점수를 0.036 향상시켰다. 또한 높은 재현율을 목표로 한 NER 버전을 제안하며, 이는 정규화의 재현율을 최대 0.744까지 끌어올리지만 정밀도는 감소하는 대가를 치른다.논의오류 분석 결과, NER 오류 수가 정규화 오류 수보다 4:1 이상 더 많음을 확인하였다. 특히 약어 및 약어 표현(acronyms)이 주요 오류 원인으로 나타났으며, 제어된 어휘 체계 내에서 평가자가 식별하지 못한 언급들 역시 중요한 오류 요인으로 확인되었다.결론임상 내역에서의 질환 언급은 높은 용어 변형을 동반하는 풍부한 어휘 체계를 사용하며, 이는 임상 내역에서의 성능 저하를 초래하는 주요 원인 중 하나라고 판단된다. 본 연구는 쌍별 학습을 통한 정규화 방법이 이와 같은 맥락에서 높은 성능을 발휘함을 보였으며, 다양한 어휘적 개선 전략을 제안하여 NER 시스템이 이러한 변형을 효과적으로 처리할 수 있도록 했다. DNorm-C는 임상 텍스트 내 질환을 위한 고성능, 오픈소스 시스템이며, 다양한 도메인과 엔티티에 대해 훈련 가능한 NER 및 정규화 방법론으로 나아가는 유망한 발걸음이다. (DNorm-C는 오픈소스 소프트웨어이며, 훈련된 모델과 함께 DNorm 시연 웹사이트(http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm)에서 제공된다.)