
초록
우리는 93개 언어(30여 개의 다른 언어 가족에 속하고 28개의 서로 다른 문자 체계로 기록됨)에 대한 공동 다언어 문장 표현을 학습하기 위한 아키텍처를 소개합니다. 우리의 시스템은 모든 언어에 대해 공유된 BPE 어휘를 사용하는 단일 BiLSTM 인코더와 보조 디코더를 결합하여, 공개적으로 이용 가능한 병렬 코퍼스에서 훈련됩니다. 이는 영어 주석 데이터만을 사용하여 결과 임베딩 위에 분류기를 학습시키고, 어떤 수정 없이 93개 언어 중 어느 것에도 이를 전송할 수 있게 합니다. 우리는 교차 언어 자연어 추론(XNLI 데이터셋), 교차 언어 문서 분류(MLDoc 데이터셋) 및 병렬 코퍼스 마이닝(BUCC 데이터셋) 실험을 통해 우리의 접근 방식의 효과성을 보여줍니다. 또한, 112개 언어의 정렬된 문장 테스트 세트를 소개하며, 이는 저자원 언어에서도 다언어 유사성 검색에서 강력한 결과를 얻음을 입증합니다. 우리의 구현, 사전 훈련된 인코더 및 다언어 테스트 세트는 https://github.com/facebookresearch/LASER에서 제공됩니다.