
초록
코로나19 팬데믹 이후, 바이러스를 연구하는 과학 논문의 수가 급증하여 자동 문헌 검토에 대한 관심이 높아졌습니다. 본 연구에서는 이전의 노력보다 세 가지 측면에서 개선된 임상 텍스트 마이닝 시스템을 제시합니다. 첫째, 이 시스템은 건강에 영향을 미치는 사회적 요인, 해부학, 위험 요인, 부작용 등 100여 종류의 다양한 엔티티 유형을 인식할 수 있으며, 다른 일반적으로 사용되는 임상 및 생물 의학적 엔티티도 포함합니다. 둘째, 텍스트 처리 파이프라인에는 주장 상태 감지 기능이 포함되어 있어 환자 외 다른 사람에 대한 것인지, 현재 존재하는 것인지, 부재인지 또는 조건부인지 등을 구분할 수 있습니다. 셋째, 사용된 딥러닝 모델은 이전에 제공된 것보다 더 정확하며, 최신 사전 학습된 named entity recognition(명사 인식) 모델을 통합한 파이프라인을 활용하여 주장 상태 감지의 이전 최고 성능 벤치마크를 개선했습니다.우리는 코로나19 오픈 리서치 데이터셋(CORD-19)에서 가장 빈번한 질환과 증상, 가장 일반적인 생명 징후와 심전도 결과 등의 추세와 통찰력을 추출하는 방법을 설명합니다. 이 시스템은 분산 클러스터 사용을 지원하고 GPU를 활용하며 설정 가능하고 재사용 가능한 NLP 파이프라인, 의료 전문 임베딩(embedding), 새로운 엔티티 유형이나 인간 언어를 지원하기 위한 모델 학습 기능을 제공하는 Spark NLP 라이브러리를 사용하여 구축되었습니다. 이러한 기능들은 코드 변경 없이 구현됩니다.