
초록
명명된 개체 인식(Named Entity Recognition, NER)은 널리 적용되는 자연어 처리 작업으로, 질문 응답, 주제 모델링, 정보 검색 등에 기본적인 구성 요소로 사용됩니다. 의료 분야에서는 NER이 임상 노트와 보고서에서 의미 있는 부분을 추출하여 주장 상태 감지(assertion status detection), 개체 해상(entity resolution), 관계 추출(relation extraction), 비식별화(de-identification) 등의 후속 작업에 제공하는 중요한 역할을 합니다. 본 연구에서는 Apache Spark 위에서 Bi-LSTM-CNN-Char 딥러닝 아키텍처를 재구현하여, BERT와 같은 무거운 문맥 임베딩을 사용하지 않고 일곱 개의 공개 생물의학 벤치마크에서 새로운 최고 수준의 결과를 얻는 단일 학습 가능한 NER 모델을 제시합니다. 이는 BC4CHEMD를 93.72%(4.1% 향상), Species800을 80.91%(4.6% 향상), JNLPBA를 81.29%(5.2% 향상)시키는 것을 포함합니다. 또한, 이 모델은 오픈 소스 Spark NLP 라이브러리의 일부로 프로덕션급 코드 기반에서 자유롭게 이용 가능하며, 어떤 Spark 클러스터에서도 학습과 추론을 확장할 수 있으며, GPU 지원과 Python, R, Scala, Java와 같은 인기 있는 프로그래밍 언어용 라이브러리를 제공하며, 코드 변경 없이 다른 인간 언어를 지원하도록 확장할 수 있습니다.