9일 전

다국어 순차적 엔티티 링킹

Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni
다국어 순차적 엔티티 링킹
초록

우리는 다국어 엔티티 링킹(Multilingual Entity Linking, MEL) 문제를 위한 시퀀스-투-시퀀스 시스템인 mGENRE를 제안한다. MEL은 특정 언어로 표현된 언급(mention)을 다국어 지식베이스(KB)로 매핑하는 작업이다. 주어진 언어에서 언급이 나타날 때, mGENRE는 자동회귀(auto-regressive) 방식으로 왼쪽에서 오른쪽으로, 토큰 단위로 타겟 엔티티의 이름을 예측한다. 이 자동회귀 구조는 언급 문자열과 엔티티 이름 간의 상호작용을 표준적인 언급 벡터와 엔티티 벡터 간의 내적(dot product)보다 더 효과적으로 캡처할 수 있게 한다. 또한, 언급 테이블에 등장하지 않은 언급이나 대규모 벡터 인덱스 없이도 큰 지식베이스 내에서 빠른 검색이 가능하게 한다. 기존의 MEL 연구들은 각 엔티티에 대해 하나의 표현만을 사용하지만, 우리는 가능한 한 많은 언어의 엔티티 이름과 매칭하여 입력 언어와 타겟 이름 간의 언어적 연결을 효과적으로 활용한다. 더불어, 훈련 데이터가 전혀 없는 언어에 대해 제로샷(zero-shot) 설정에서 mGENRE는 타겟 언어를 예측 시점에 마진화(marginalized)하는 잠재 변수(latent variable)로 취급한다. 이로 인해 평균 정확도에서 50% 이상의 개선이 이루어졌다. 우리는 세 가지 대표적인 MEL 벤치마크에서의 광범위한 실험을 통해 본 방법의 효율성을 입증하였으며, mGENRE는 이들 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 코드와 사전 학습 모델은 https://github.com/facebookresearch/GENRE 에서 확인할 수 있다.