11일 전
중첩 명명된 실체 인식을 위한 이중 단계 식별자: 위치 찾기 및 라벨링
Yongliang Shen, Xinyin Ma, Zeqi Tan, Shuai Zhang, Wen Wang, Weiming Lu

초록
명사 인식(Named Entity Recognition, NER)은 자연어 처리 분야에서 꾸준히 연구되어 온 핵심 과제이다. 기존의 NER 연구는 평면적(entity) 구조에만 초점을 맞추며 중첩된(entity) 구조를 무시해왔다. 스팬 기반(Span-based) 방법은 실체 인식을 스팬 분류 문제로 간주한다. 이러한 방법들은 중첩 NER를 처리할 수 있는 내재적 능력을 지니고 있지만, 높은 계산 비용, 경계 정보 무시, 실체와 부분적으로 일치하는 스팬의 활용 부족, 그리고 긴 실체 인식에서의 어려움 등의 문제를 안고 있다. 이러한 문제들을 해결하기 위해 우리는 이단계(entity identifier)를 제안한다. 첫 번째 단계에서는 초기 스팬(시드 스팬)를 기반으로 필터링과 경계 회귀를 수행하여 실체 위치를 탐지하는 스팬 제안을 생성하고, 두 번째 단계에서는 경계 조정된 스팬 제안에 대해 해당 카테고리를 레이블링한다. 제안하는 방법은 학습 과정에서 실체의 경계 정보와 부분적으로 일치하는 스팬을 효과적으로 활용한다. 경계 회귀를 통해 이론적으로 임의의 길이의 실체를 포괄할 수 있어, 긴 실체 인식 능력이 향상된다. 또한 첫 번째 단계에서 다수의 저품질 시드 스팬이 제거되므로 추론의 시간 복잡도가 감소한다. 중첩 NER 데이터셋에 대한 실험 결과, 제안하는 방법이 기존 최고 성능 모델들을 모두 상회함을 입증하였다.