중첩 명명된 엔티티 인식을 위한 시퀀스-셋 네트워크

명시적 엔티티 인식(Named Entity Recognition, NER)은 자연어 처리 분야에서 널리 연구되고 있는 과제이다. 최근 들어 중첩된(Nested) NER에 대한 연구가 점차 증가하고 있다. 스팬 기반(Span-based) 방법은 엔티티 인식을 스팬 분류 문제로 간주함으로써 중첩된 엔티티를 자연스럽게 처리할 수 있으나, 큼직한 탐색 공간과 엔티티 간의 상호작용 부족이라는 문제를 겪고 있다. 이러한 문제를 해결하기 위해, 본 연구는 중첩 NER를 위한 새로운 시퀀스-셋(sequence-to-set) 신경망을 제안한다. 사전에 후보 스팬을 지정하는 대신, 유용한 스팬 패턴을 학습할 수 있도록 고정된 학습 가능한 벡터 집합을 제공한다. 비자율적(Non-autoregressive) 디코더를 활용하여 한 번의 통과 과정에서 최종 엔티티 집합을 예측함으로써, 엔티티 간의 종속성을 효과적으로 포착할 수 있다. 시퀀스-투-시퀀스(sequence-to-sequence) 방법과 비교할 때, 본 모델은 레이블 순서에 민감하지 않기 때문에, 순서 없는 인식 과제에 더 적합하다. 또한, 전반적인 학습 손실을 계산하기 위해 이분 매칭(Bipartite Matching) 기반의 손실 함수를 사용한다. 실험 결과, 제안하는 모델은 ACE 2004, ACE 2005, KBP 2017 세 가지 중첩 NER 코퍼스에서 최고 성능을 달성하였다. 코드는 https://github.com/zqtan1024/sequence-to-set 에서 공개되어 있다.