2달 전

단일화된 명명된 개체 인식을 단어-단어 관계 분류로

Jingye Li; Hao Fei; Jiang Liu; Shengqiong Wu; Meishan Zhang; Chong Teng; Donghong Ji; Fei Li
단일화된 명명된 개체 인식을 단어-단어 관계 분류로
초록

지금까지 명명된 개체 인식(NER)은 평면, 중첩(또는 중첩된, nested), 그리고 불연속 NER를 포함한 세 가지 주요 유형에 관여되어 왔으며, 이들 대부분은 개별적으로 연구되어 왔습니다. 최근에는 위의 세 가지 작업을 단일 모델로 동시에 처리하는 통합 NER에 대한 관심이 증가하고 있습니다. 현재 가장 우수한 방법들은 주로 스패ن 기반과 시퀀스-투-시퀀스 모델을 포함하며, 불행히도 전자는 경계 식별에만 집중하고 후자는 노출 편향(exposure bias) 문제를 겪을 수 있습니다. 본 연구에서는 통합 NER를 단어-단어 관계 분류로 모델링하는 새로운 대안인 W^2NER을 제시합니다. 이 구조는 Next-Neighboring-Word (NNW) 및 Tail-Head-Word- (THW-) 관계를 통해 효과적으로 개체 단어 간의 인접 관계를 모델링하여 통합 NER의 핵심 병목 현상을 해결합니다. W^2NER 방식을 바탕으로 우리는 통합 NER을 단어 쌍의 2D 그리드로 모델링하는 신경망 프레임워크를 개발하였습니다. 그 다음으로, 그리드 표현을 더욱 정교하게 만드는 다중 세분화 2D 컨볼루션을 제안합니다. 마지막으로, 공예측기(co-predictor)를 사용하여 단어-단어 관계를 충분히 추론합니다. 우리는 평면, 중첩, 불연속 NER(영어 데이터셋 8개와 중국어 데이터셋 6개)에 널리 사용되는 14개 벤치마크 데이터셋에서 광범위한 실험을 수행하였으며, 우리의 모델은 모든 현재 최고 성능의 기준선(baselines)을 능가하여 통합 NER의 최신 성능 기준(state-of-the-art performances)을 끌어올렸습니다.