2달 전
157개 언어에 대한 단어 벡터 학습
Edouard Grave; Piotr Bojanowski; Prakhar Gupta; Armand Joulin; Tomas Mikolov

초록
분산 단어 표현 또는 단어 벡터는 최근 자연어 처리의 많은 작업에 적용되어 최고 수준의 성능을 달성하였습니다. 이러한 표현들을 성공적으로 적용하는 핵심 요소는 매우 큰 말뭉치에서 이를 훈련시키고, 이 사전 훈련된 모델들을 후속 작업에 활용하는 것입니다. 본 논문에서는 157개 언어에 대한 고품질의 분산 단어 표현을 어떻게 훈련시켰는지 설명합니다. 우리는 이 모델들을 훈련시키기 위해 두 가지 데이터 소스를 사용했습니다: 무료 온라인 백과사전 위키백과와 공통 크롤 프로젝트의 데이터입니다. 또한, 프랑스어, 힌디어 및 폴란드어를 위한 세 가지 새로운 단어 유추 데이터셋을 소개합니다. 마지막으로, 평가 데이터셋이 존재하는 10개 언어에서 우리의 사전 훈련된 단어 벡터를 평가하여, 기존 모델들에 비해 매우 우수한 성능을 보임을 입증합니다.