구문 정보를 활용한 생물의학 영역 명명된 실체 인식 개선
생물의학명칭인식(BioNER)은 생물의학 텍스트를 이해하는 데 중요한 과제이며, 대규모 레이블링된 학습 데이터의 부족과 도메인 지식의 한계로 인해 도전적인 과제가 될 수 있다. 이러한 문제를 해결하기 위해 강력한 인코더(예: biLSTM 및 BioBERT)를 사용하는 것 외에도, 쉽게 확보할 수 있는 추가 지식을 활용하는 것이 가능하다. 기존 연구들은 자동 처리된 구문 정보가 모델 성능 향상에 유용한 자원이 될 수 있음을 보여주었으나, 이들 연구는 구문 정보의 임베딩을 입력 단어 임베딩에 직접 연결하는 방식에 국한되어 있다. 따라서 이러한 구문 정보는 유연하지 못하게 활용되며, 정확하지 않은 정보는 오히려 모델 성능을 저하시킬 수 있다. 본 논문에서는 자동 처리된 구문 정보를 효과적으로 통합하기 위해 키-값 메모리 네트워크(KVMN)를 활용한 BioNER 모델인 BIOKMNER를 제안한다. 우리는 BIOKMNER를 여섯 개의 영문 생물의학 데이터셋에서 평가하였으며, KVMN을 사용한 본 방법은 이전 연구에서 제시된 강력한 베이스라인 모델인 BioBERT보다 모든 데이터셋에서 우수한 성능을 보였다. 특히, 최고 성능을 기록한 모델의 F1 스코어는 BC2GM에서 85.29%, JNLPBA에서 77.83%, BC5CDR-chemical에서 94.22%, NCBI-disease에서 90.08%, LINNAEUS에서 89.24%, Species-800에서 76.33%를 기록하였으며, 이 중 네 가지 데이터셋(BC2GM, BC5CDR-chemical, NCBI-disease, Species-800)에서 최첨단 성능을 달성하였다. 여섯 개의 영문 벤치마크 데이터셋에 대한 실험 결과는 자동 처리된 구문 정보가 BioNER에 유용한 자원이 될 수 있음을 입증하며, 본 연구에서 제안한 KVMN 기반 방법이 이러한 정보를 적절히 활용하여 모델 성능을 향상시킬 수 있음을 보여준다.