16일 전

대규모 비구조화된 매체에서 부작용 약물 반응 탐색하기

Hasham Ul Haq, Veysel Kocaman, David Talby
대규모 비구조화된 매체에서 부작용 약물 반응 탐색하기
초록

약물 부작용(Adverse Drug Reactions/Events, ADR/ADE)은 환자의 건강과 의료 비용에 중대한 영향을 미친다. 가능한 한 조기에 ADR를 탐지하고 규제 기관, 제약 기업, 의료 제공자들과 이를 공유함으로써 질병 발생을 예방하고 수많은 생명을 구할 수 있다. 대부분의 ADR는 공식 채널을 통해 보고되지 않지만, 환자의 소셜미디어 게시물, 고객 지원 전화 녹취록, 의료진과 제약사 영업 담당자 간의 CRM 메모 등 다양한 비구조화된 대화 기록에 기록되어 있다. 본 논문에서는 이러한 비구조화된 자유 텍스트 대화에서 ADR를 탐지하는 자연어 처리(Natural Language Processing, NLP) 솔루션을 제안하며, 이전 연구에 비해 세 가지 측면에서 개선을 이루었다. 첫째, 새로운 명명된 엔터티 인식(Named Entity Recognition, NER) 모델이 ADE, CADEC, SMM4H 기준 데이터셋에서 ADR 및 약물 엔터티 추출 작업에 대해 각각 91.75%, 78.76%, 83.41%의 F1 스코어로 기존 최고 성능을 상회하는 새로운 최신 기준 성능을 달성하였다. 둘째, 두 가지 새로운 관계 추출(Relation Extraction, RE) 모델을 도입하였다. 하나는 BioBERT 기반, 다른 하나는 완전 연결 신경망(Fully Connected Neural Network, FCNN)에 기반한 특징 설계를 활용한 모델로, 기존 최고 수준의 모델과 동등한 성능을 보였으며, 보조적인 임상의가 주석한 RE 데이터셋을 사용해 훈련할 경우 기존 모델들을 능가하는 성능을 보였다. 셋째, 대화 내용에 ADR이 포함되어 있는지를 판단하는 새로운 텍스트 분류 모델이 CADEC 데이터셋에서 86.69%의 F1 스코어로 새로운 최고 성능을 기록하였다. 본 솔루션은 Apache Spark 기반의 프로덕션 수준의 라이브러리 위에 구현된 통합 NLP 파이프라인으로 제공되어, 원자재 클러스터에서 수백만 건의 배치 또는 스트리밍 데이터를 내장된 확장성과 함께 처리할 수 있다.

대규모 비구조화된 매체에서 부작용 약물 반응 탐색하기 | 최신 연구 논문 | HyperAI초신경