다국어 순차적 엔티티 링킹

우리는 다국어 엔티티 링킹(Multilingual Entity Linking, MEL) 문제를 위한 시퀀스-투-시퀀스 시스템인 mGENRE를 제안한다. MEL은 특정 언어로 표현된 언급(mention)을 다국어 지식베이스(KB)로 매핑하는 작업이다. 주어진 언어에서 언급이 나타날 때, mGENRE는 자동회귀(auto-regressive) 방식으로 왼쪽에서 오른쪽으로, 토큰 단위로 타겟 엔티티의 이름을 예측한다. 이 자동회귀 구조는 언급 문자열과 엔티티 이름 간의 상호작용을 표준적인 언급 벡터와 엔티티 벡터 간의 내적(dot product)보다 더 효과적으로 캡처할 수 있게 한다. 또한, 언급 테이블에 등장하지 않은 언급이나 대규모 벡터 인덱스 없이도 큰 지식베이스 내에서 빠른 검색이 가능하게 한다. 기존의 MEL 연구들은 각 엔티티에 대해 하나의 표현만을 사용하지만, 우리는 가능한 한 많은 언어의 엔티티 이름과 매칭하여 입력 언어와 타겟 이름 간의 언어적 연결을 효과적으로 활용한다. 더불어, 훈련 데이터가 전혀 없는 언어에 대해 제로샷(zero-shot) 설정에서 mGENRE는 타겟 언어를 예측 시점에 마진화(marginalized)하는 잠재 변수(latent variable)로 취급한다. 이로 인해 평균 정확도에서 50% 이상의 개선이 이루어졌다. 우리는 세 가지 대표적인 MEL 벤치마크에서의 광범위한 실험을 통해 본 방법의 효율성을 입증하였으며, mGENRE는 이들 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 코드와 사전 학습 모델은 https://github.com/facebookresearch/GENRE 에서 확인할 수 있다.