
초록
이전의 엔터티 링킹 관련 연구는 주로 위키피디아 데이터와 같은 출처에서 비중첩적인 고유 명사 언급(예: 사람, 장소, 기관 등)을 대상으로 해왔다. 이러한 작업들은 일반적으로 '위키피디아화(Wikification)'라고 불리는 과정을 포함한다. 본 논문에서는 비중첩적인 고유 명사 언급뿐만 아니라, 비명사적 언급과 대명사 언급, 그리고 다른 언급 내에 중첩된 언급까지 포함한 모든 종류의 고유 명사 언급을 포괄하는 완전한 위키피디아화 데이터셋인 WikiGUM을 제안하고 평가한다. 이 데이터셋은 12개의 다양한 문체(작문 및 구술 형식)를 다루며, 이전의 엔터티 링킹 연구에서 거의 다뤄지지 않은 분야를 포함하고 있어, 사전 학습된 최신 기술(SOTA) 시스템의 성능이 평가 결과에서 낮게 나타났다. 또한 동일한 데이터에 대해 다양한 다른 태그 정보가 제공됨에 따라, 맥락 속의 엔터티에 관한 추가적인 연구가 가능해졌다.