부분 관측 트리CRF를 활용한 중첩 명명된 실체 인식

명사구 인식(Named Entity Recognition, NER)은 자연어 처리 분야에서 광범위하게 연구된 과제이다. 그러나 널리 사용되는 시퀀스 레이블링 프레임워크는 중첩 구조를 가진 엔티티를 탐지하는 데 한계가 있다. 본 연구에서는 중첩 NER를 부분 관측된 트리 구조를 가진 구성 구문 분석(constituency parsing) 문제로 간주하고, 부분 관측된 TreeCRF(트리 조건부 확률 모델)를 활용하여 이를 모델링한다. 구체적으로, 레이블링된 모든 엔티티 스팬을 구성 트리 내의 관측 노드로 간주하고, 나머지 스팬은 은닉 노드로 간주한다. TreeCRF를 통해 관측 노드와 은닉 노드를 통합적으로 모델링할 수 있는 일관된 방법을 제안한다. 부분 관측된 트리의 확률을 계산하기 위해, 관측 노드에 대해 평가(evaluation), 은닉 노드에 대해 마진화(marginalization), 관측된 정보와 충돌하는 노드에 대해 거부(rejection) 등의 다양한 추론 연산을 지원하는 효율적인 병렬 구현이 가능한 \textsc{Masked Inside} 알고리즘을 제안한다. 이는 학습 및 추론 속도를 크게 향상시킨다. 실험 결과, 본 연구의 접근법은 ACE2004 및 ACE2005 데이터셋에서 최고 성능(SOTA, State-of-the-Art)의 F1 스코어를 달성하였으며, GENIA 데이터셋에서도 기존 SOTA 모델과 경쟁 가능한 성능을 보였다. 본 연구의 구현 코드는 다음과 같은 URL에서 확인할 수 있다: \url{https://github.com/FranxYao/Partially-Observed-TreeCRFs}.