9일 전

100개 언어에서의 엔터티 링킹

Jan A. Botha, Zifei Shan, Daniel Gillick
100개 언어에서의 엔터티 링킹
초록

다국어 엔티티 링킹을 위한 새로운 공식을 제안한다. 이 새로운 설정에서는 언어별 언급이 언어에 구애받지 않는 지식 기반(Knowledge Base)으로 해석된다. 기존 연구를 바탕으로 개선된 특징 표현, 음성 샘플링(negative mining), 그리고 보조적인 엔티티 쌍화 작업(entity-pairing task)을 도입하여 이중 인코더(dual encoder)를 훈련함으로써, 100개 이상의 언어와 2,000만 개 이상의 엔티티를 포괄하는 단일 엔티티 검색 모델을 구축하였다. 이 모델은 훨씬 제한된 다국어 링킹 작업에서 기존 최고 성능을 뛰어넘는 성능을 보였다. 대규모 환경에서는 희귀 엔티티와 저자원 언어가 주요 과제로 작용하므로, 제로-샷(Zero-shot) 및 희소-샷(Few-shot) 평가에 대한 보다 큰 관심을 촉구한다. 이를 위해 본 연구는 본 설정과 일치하는 대규모 다국어 데이터셋인 Mewsli-9를 제공하며(http://goo.gle/mewsli-dataset), 빈도 기반 분석이 모델 및 훈련 개선에 핵심적인 통찰을 제공했음을 보여준다.