초록
우리는 애플리케이션 수준의 임상 및 생물의학 분야 Named Entity Recognition(NER) 알고리즘을 소개한다. 이 알고리즘은 Apache Spark 위에서 구동되는 수정된 BiLSTM-CNN-Char 딥러닝 아키텍처를 기반으로 하며, 빠르고 유연한 생산 환경 적용이 가능하다. 제안된 NER 구현체는 8개의 유명한 생물의학 NER 벤치마크 중 7개와 3개의 임상 개념 추출 과제에서 새로운 최고 성능을 달성했다. 해당 과제들은 2010 i2b2/VA 임상 개념 추출, 2014 n2c2 개인정보 익명화 처리, 그리고 2018 n2c2 약물 정보 추출이다. 또한, 본 구현을 통해 학습된 임상 NER 모델은 메모리 집약적인 언어 모델을 사용하지 않고도 상용 엔티티 추출 솔루션인 AWS Medical Comprehend 및 Google Cloud Healthcare API의 정확도를 각각 8.9%, 6.7% 이상 뛰어넘는 성능을 보였다.