한 달 전

단어 벡터에 서브워드 정보 추가하기

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov

초록

대규모 비라벨 코퍼스에서 훈련된 연속적인 단어 표현은 많은 자연어 처리 작업에 유용합니다. 이러한 표현을 학습하는 인기 있는 모델들은 각 단어에 고유한 벡터를 할당함으로써 단어의 형태소를 무시하는 경향이 있습니다. 이는 특히 어휘가 크고 드문 단어가 많은 언어에 있어서 제약이 됩니다. 본 논문에서는 skipgram 모델을 기반으로 한 새로운 접근 방식을 제안합니다. 여기서 각 단어는 문자 $n$-그램의 집합으로 표현됩니다. 각 문자 $n$-그램에는 벡터 표현이 연결되며, 단어는 이러한 표현들의 합으로 나타내집니다. 우리의 방법은 빠르기 때문에 대규모 코퍼스에서 모델을 신속하게 훈련할 수 있으며, 훈련 데이터에 나타나지 않은 단어의 표현도 계산할 수 있습니다. 우리는 9개의 다른 언어에서 단어 유사성과 유추 작업을 통해 우리의 단어 표현을 평가했습니다. 최근 제안된 형태소 기반 단어 표현들과 비교하여, 우리의 벡터가 이러한 작업에서 최신 수준의 성능을 달성함을 보여주었습니다.