11일 전

중첩 명명된 실체 인식을 위한 이중 단계 식별자: 위치 찾기 및 라벨링

Yongliang Shen, Xinyin Ma, Zeqi Tan, Shuai Zhang, Wen Wang, Weiming Lu
중첩 명명된 실체 인식을 위한 이중 단계 식별자: 위치 찾기 및 라벨링
초록

명사 인식(Named Entity Recognition, NER)은 자연어 처리 분야에서 꾸준히 연구되어 온 핵심 과제이다. 기존의 NER 연구는 평면적(entity) 구조에만 초점을 맞추며 중첩된(entity) 구조를 무시해왔다. 스팬 기반(Span-based) 방법은 실체 인식을 스팬 분류 문제로 간주한다. 이러한 방법들은 중첩 NER를 처리할 수 있는 내재적 능력을 지니고 있지만, 높은 계산 비용, 경계 정보 무시, 실체와 부분적으로 일치하는 스팬의 활용 부족, 그리고 긴 실체 인식에서의 어려움 등의 문제를 안고 있다. 이러한 문제들을 해결하기 위해 우리는 이단계(entity identifier)를 제안한다. 첫 번째 단계에서는 초기 스팬(시드 스팬)를 기반으로 필터링과 경계 회귀를 수행하여 실체 위치를 탐지하는 스팬 제안을 생성하고, 두 번째 단계에서는 경계 조정된 스팬 제안에 대해 해당 카테고리를 레이블링한다. 제안하는 방법은 학습 과정에서 실체의 경계 정보와 부분적으로 일치하는 스팬을 효과적으로 활용한다. 경계 회귀를 통해 이론적으로 임의의 길이의 실체를 포괄할 수 있어, 긴 실체 인식 능력이 향상된다. 또한 첫 번째 단계에서 다수의 저품질 시드 스팬이 제거되므로 추론의 시간 복잡도가 감소한다. 중첩 NER 데이터셋에 대한 실험 결과, 제안하는 방법이 기존 최고 성능 모델들을 모두 상회함을 입증하였다.

중첩 명명된 실체 인식을 위한 이중 단계 식별자: 위치 찾기 및 라벨링 | 최신 연구 논문 | HyperAI초신경