17일 전
맥락 및 전역 특징을 결합한 명명된 엔터티 인식 아키텍처
Tran Thi Hong Hanh, Antoine Doucet, Nicolas Sidere, Jose G. Moreno, Senja Pollak

초록
이름付き 엔터티 인식(Named Entity Recognition, NER)은 문서 내에 존재하는 이름付き 엔터티(예: 기관, 장소 등)를 식별하고 사전 정의된 카테고리로 분류하는 정보 추출 기법이다. 이러한 표현들을 정확히 식별하는 것은 정보 접근을 단순화하는 데 중요한 역할을 한다. 그러나 이름付き 엔터티(NE)는 다양한 형태를 가지며, 맥락에 따라 달라지기 때문에 여전히 도전적인 작업으로 남아 있다. 맥락은 맥락적 특징으로 표현될 수 있으나, 기존 모델들은 일반적으로 전역적 관계를 충분히 반영하지 못한다. 본 논문에서는 XLNet에서 추출한 맥락적 특징과 그래프 컨볼루션 네트워크(Graph Convolution Network, GCN)에서 도출한 전역적 특징을 결합함으로써 NER 성능을 향상시키는 전략을 제안한다. 널리 사용되는 CoNLL 2003 데이터셋을 대상으로 수행한 실험 결과, 제안한 전략이 최신 기술(SOTA, State-of-the-Art) 수준과 경쟁 가능한 성능을 보임을 확인할 수 있었다.