2달 전

157개 언어에 대한 단어 벡터 학습

Edouard Grave; Piotr Bojanowski; Prakhar Gupta; Armand Joulin; Tomas Mikolov
157개 언어에 대한 단어 벡터 학습
초록

분산 단어 표현 또는 단어 벡터는 최근 자연어 처리의 많은 작업에 적용되어 최고 수준의 성능을 달성하였습니다. 이러한 표현들을 성공적으로 적용하는 핵심 요소는 매우 큰 말뭉치에서 이를 훈련시키고, 이 사전 훈련된 모델들을 후속 작업에 활용하는 것입니다. 본 논문에서는 157개 언어에 대한 고품질의 분산 단어 표현을 어떻게 훈련시켰는지 설명합니다. 우리는 이 모델들을 훈련시키기 위해 두 가지 데이터 소스를 사용했습니다: 무료 온라인 백과사전 위키백과와 공통 크롤 프로젝트의 데이터입니다. 또한, 프랑스어, 힌디어 및 폴란드어를 위한 세 가지 새로운 단어 유추 데이터셋을 소개합니다. 마지막으로, 평가 데이터셋이 존재하는 10개 언어에서 우리의 사전 훈련된 단어 벡터를 평가하여, 기존 모델들에 비해 매우 우수한 성능을 보임을 입증합니다.

157개 언어에 대한 단어 벡터 학습 | 최신 연구 논문 | HyperAI초신경