간단하지만 강력한: 중첩된 명명된 엔티티 인식을 위한 간과된 아키텍처

명사 구분 인식(Named Entity Recognition, NER)은 사전 정의된 카테고리에 속하는 텍스트 구간을 식별하는 자연어 처리에서 중요한 과제이다. 기존의 NER 시스템은 다른 엔티티 언급 내에 포함된 중첩 엔티티(nested entities)를 무시하는 경향이 있다. 비록 이 문제를 다루기 위한 여러 방법이 제안되었지만, 대부분은 복잡한 작업 특화 구조에 의존하며, 이 작업에 유용할 수 있는 잠재적인 기본 모델(baselines)을 간과하고 있다. 본 연구에서는 이러한 접근이 모델 성능에 대해 과도하게 낙관적인 인상을 줄 수 있다고 주장한다. 본 논문은 각 엔티티 유형에 대해 독립적인 시퀀스 레이블링 모델을 학습하는 간단하면서도 무시되어 왔지만 강력한 다중 LSTM-CRF(Multiple LSTM-CRF, MLC) 모델을 재검토한다. 세 가지 중첩 NER 코퍼스를 대상으로 한 광범위한 실험 결과, 이 모델의 단순성에도 불구하고, 더 복잡한 방법들보다 우수하거나 적어도 동등한 성능을 보였다. 또한, 사전 훈련된 언어 모델을 포함함으로써 MLC 아키텍처가 칠레 대기자 명단 코퍼스에서 최신 기술(SOTA) 성능을 달성함을 보였다. 더불어, 중첩 NER 작업에 특화된 평가 지표를 계산하는 오픈소스 라이브러리를 구현하였다. 실험 결과, 이전 연구에서 사용된 지표들은 중첩 엔티티 탐지 능력을 충분히 측정하지 못함을 시사하며, 본 연구에서 제안하는 새로운 지표들은 기존 접근 방식들이 이 과제를 어떻게 다루는지를 보여주는 새로운 증거를 제공한다.