2달 전
단어와 실체의 임베딩을 위한 공동 학습: 명시적 실체 해소
Ikuya Yamada; Hiroyuki Shindo; Hideaki Takeda; Yoshiyasu Takefuji

초록
명시적 실체 해소(Named Entity Disambiguation, NED)는 문서 내에서 여러 명시적 실체 언급을 지식 기반(Knowledge Base, KB)(예: 위키백과)의 올바른 참조로 해결하는 작업을 의미합니다. 본 논문에서는 NED를 위해 특별히 설계된 새로운 임베딩 방법을 제안합니다. 제안된 방법은 단어와 실체를 동일한 연속 벡터 공간으로 공동으로 매핑합니다. 우리는 두 가지 모델을 사용하여 스킵-그램 모델을 확장했습니다. KB 그래프 모델은 KB의 링크 구조를 사용하여 실체 간의 관련성을 학습하며, 앵커 문맥 모델은 KB 앵커와 그 문맥 단어를 활용하여 유사한 단어와 실체가 벡터 공간에서 서로 가까이 위치하도록 벡터를 정렬하는 것을 목표로 합니다. 제안된 임베딩에 기반한 문맥과 표준 NED 특징을 결합함으로써, 우리는 표준 CoNLL 데이터셋에서 93.1%의 최고 수준의 정확도와 TAC 2010 데이터셋에서 85.2%의 정확도를 달성하였습니다.