17일 전
CHOLAN: 위키백과 및 위키데이터에서의 신경망 기반 엔티티 링킹을 위한 모듈형 접근법
Manoj Prabhakar Kannan Ravi, Kuldeep Singh, Isaiah Onando Mulang', , Saeedeh Shekarpour, Johannes Hoffart, Jens Lehmann

초록
본 논문에서는 지식 기반 위에서 엔티티 링킹(EL)을 위한 엔드투엔드(end-to-end) 접근 방식으로, 모듈형 구조를 가진 CHOLAN을 제안한다. CHOLAN은 두 개의 트랜스포머 기반 모델을 순차적으로 통합한 파이프라인으로 구성되어 있으며, EL 작업을 수행한다. 첫 번째 트랜스포머 모델은 주어진 텍스트 내에서 표면 형태(surface forms, 즉 엔티티 언급)를 식별한다. 각 언급에 대해, 두 번째 트랜스포머 모델이 미리 정의된 후보 엔티티 목록 중에서 적절한 타깃 엔티티를 분류한다. 후자의 트랜스포머 모델은 문장 수준의 로컬 컨텍스트(local context)에서 추출된 풍부한 맥락 정보와 위키백과에서 확보한 엔티티 설명 정보를 입력으로 사용한다. 이러한 외부 맥락 정보는 기존의 최첨단 엔티티 링킹 접근 방식에서는 사용되지 않았다. 본 연구의 실험적 평가는 두 가지 유명한 지식 기반(즉, 위키데이터 및 위키백과)을 대상으로 수행되었다. 실험 결과, CHOLAN은 CoNLL-AIDA, MSNBC, AQUAINT, ACE2004, T-REx와 같은 표준 데이터셋에서 기존의 최첨단 방법들을 상회하는 성능을 보였다.