
초록
명명된 개체 인식(Named Entity Recognition, NER)은 텍스트에서 개체 범위를 감지하고 분류하는 작업입니다. 개체 범위가 서로 겹치는 경우, 이 문제는 중첩 NER(nested NER)로 알려져 있습니다. 스패ن 기반 방법이 중첩 NER을 해결하기 위해 널리 사용되어 왔습니다. 이러한 방법의 대부분은 문장의 길이를 $n$으로 나타내고, 각 항목이 스패ン에 대응하는 $n \times n$ 점수 행렬을 생성합니다. 그러나 이전 연구에서는 점수 행렬 내의 공간 관계를 무시했습니다. 본 논문에서는 이러한 공간 관계를 모델링하기 위해 합성곱 신경망(Convolutional Neural Network, CNN)을 제안합니다. 단순한 방법임에도 불구하고, 세 가지 일반적으로 사용되는 중첩 NER 데이터셋에서 수행한 실험 결과, 우리의 모델은 동일한 사전 훈련 인코더를 사용하는 여러 최근 제안된 방법들을 능가함을 보여주었습니다. 추가 분석 결과, CNN을 사용하면 모델이 더 많은 중첩 개체를 찾는 데 도움이 됨을 확인할 수 있었습니다. 또한, 우리는 세 가지 중첩 NER 데이터셋에 대해 다른 논문들이 서로 다른 문장 토큰화를 사용했다는 사실을 발견하였습니다. 이는 비교에 영향을 미칠 수 있으므로, 우리는 미래의 비교를 용이하게 하기 위한 전처리 스크립트를 공개합니다.