
초록
엔티티 링킹(EL)은 의미론적 텍스트 이해와 정보 추출을 위한 필수적인 작업입니다. 현재까지의 주요 방법들은 EL의 언급 탐지(MD)와 엔티티 모호성 해소(ED) 단계를 별도로 처리하며, 이들 간의 상호 의존성을 활용하지 못하고 있습니다. 본 연구에서는 이러한 문제점을 해결하기 위해, 텍스트 문서에서 엔티티를 동시에 발견하고 링크하는 첫 번째 신경망 기반 엔드투엔드 EL 시스템을 제안합니다. 주요 아이디어는 모든 가능한 구간을 잠재적인 언급으로 고려하고, MD와 ED 결정에 유용한 문맥 유사성 점수를 학습하는 것입니다. 핵심 구성 요소는 문맥 인식 언급 임베딩, 엔티티 임베딩 및 확률적 언급-엔티티 매핑이며, 다른 공학적 특징들을 요구하지 않습니다. 경험적으로 충분한 학습 데이터가 제공될 때, 제안된 엔드투엔드 방법이 Gerbil 플랫폼에서 인기 있는 시스템들보다 크게 우수함을 입증하였습니다. 반면에 테스트 데이터셋이 학습 데이터셋과 다른 주석 규칙을 따르는 경우(예: 쿼리/트윗 대신 뉴스 문서), 전통적인 명명 실체 인식(NER) 시스템과 결합된 우리의 ED 모델이 최고 또는 두 번째로 우수한 EL 정확도를 제공합니다.