
초록
명명된 엔티티 인식(Named Entity Recognition, NER)은 생물의학 분야에서 문서로부터 정보를 추출하는 데 있어 핵심적인 기술이다. NER의 주요 장점 중 하나는 문서의 맥락 내에서 생물의학적 엔티티를 일관성 있게 추출할 수 있다는 점이다. 기존의 문서 기반 NER 모델들은 일관된 예측을 보이지만, 여전히 기대에 못 미치는 경우가 많다. 본 연구에서는 엔티티 내부의 형용사나 전치사와 같은 수식어가 레이블 일관성 저하를 초래하여 예측의 일관성 부족을 유발할 가능성에 대해 조사하였다. 본 논문에서는 이러한 수식어(예: 형용사, 전치사)의 레이블 종속성을 강화함으로써 더 높은 레이블 일치도를 달성하는 방법인 ConNER을 제안한다. ConNER은 수식어의 초안 레이블을 보정함으로써 생물의학적 엔티티의 출력 표현을 개선한다. 제안한 방법의 효과는 네 가지 대표적인 생물의학 NER 데이터셋에서 입증되었으며, 특히 레이블 일관성이 본질적으로 낮은 두 데이터셋에서 F1 스코어가 7.5~8.6%의 절대적 개선을 보였다. 우리는 이러한 결과를 통해 ConNER이 본질적으로 레이블 일관성이 낮은 데이터셋에서 특히 효과적임을 해석한다. 정성적 분석을 통해 제안한 방법이 NER 모델이 일관된 예측을 생성하도록 유도하는 방식을 입증하였다. 본 연구의 코드와 자료는 https://github.com/dmis-lab/ConNER/ 에 공개되어 있다.