2달 전

문장과 문서의 분산 표현

Quoc V. Le; Tomas Mikolov
문장과 문서의 분산 표현
초록

많은 머신 러닝 알고리즘이 입력을 고정된 길이의 특성 벡터로 표현하도록 요구합니다. 텍스트의 경우, 가장 일반적인 고정된 길이의 특성 중 하나는 단어 봉투(bag-of-words)입니다. 그러나 단어 봉구 특성이 인기 있는 만큼 두 가지 주요 약점을 가지고 있습니다: 단어의 순서를 잃고, 단어의 의미도 무시합니다. 예를 들어, "powerful" (강력한), "strong" (강한), 그리고 "Paris" (파리)는 동일한 거리로 간주됩니다. 본 논문에서는 문장, 문단, 문서와 같은 가변 길이의 텍스트에서 고정된 길이의 특성 표현을 학습하는 비지도 학습 알고리즘인 패러그래프 벡터(Paragraph Vector)를 제안합니다. 이 알고리즘은 각 문서를 해당 문서 내의 단어를 예측하도록 훈련된 밀집 벡터로 표현합니다. 이러한 구조는 우리 알고리즘이 단어 봉구 모델의 약점을 극복할 가능성을 제공합니다. 경험적 결과에 따르면, 패러그래프 벡터는 단어 봉구 모델뿐만 아니라 다른 텍스트 표현 기술보다 우수한 성능을 보입니다. 마지막으로, 우리는 여러 텍스트 분류 및 감성 분석 작업에서 새로운 최상위 성능(state-of-the-art) 결과를 달성하였습니다.