한 달 전

단어 벡터에 서브워드 정보 추가하기

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov
단어 벡터에 서브워드 정보 추가하기
초록

대규모 비라벨 코퍼스에서 훈련된 연속적인 단어 표현은 많은 자연어 처리 작업에 유용합니다. 이러한 표현을 학습하는 인기 있는 모델들은 각 단어에 고유한 벡터를 할당함으로써 단어의 형태소를 무시하는 경향이 있습니다. 이는 특히 어휘가 크고 드문 단어가 많은 언어에 있어서 제약이 됩니다. 본 논문에서는 skipgram 모델을 기반으로 한 새로운 접근 방식을 제안합니다. 여기서 각 단어는 문자 $n$-그램의 집합으로 표현됩니다. 각 문자 $n$-그램에는 벡터 표현이 연결되며, 단어는 이러한 표현들의 합으로 나타내집니다. 우리의 방법은 빠르기 때문에 대규모 코퍼스에서 모델을 신속하게 훈련할 수 있으며, 훈련 데이터에 나타나지 않은 단어의 표현도 계산할 수 있습니다. 우리는 9개의 다른 언어에서 단어 유사성과 유추 작업을 통해 우리의 단어 표현을 평가했습니다. 최근 제안된 형태소 기반 단어 표현들과 비교하여, 우리의 벡터가 이러한 작업에서 최신 수준의 성능을 달성함을 보여주었습니다.

단어 벡터에 서브워드 정보 추가하기 | 최신 연구 논문 | HyperAI초신경