
초록
문서 수준 감성 분류에서 각 문서는 고정된 길이의 벡터로 매핑되어야 한다. 문서 임베딩 모델은 각 문서를 연속적인 벡터 공간 내에서 밀도가 높고 저차원의 벡터로 매핑한다. 본 논문은 내적 곱(dot product) 대신 코사인 유사도(cosine similarity)를 사용하여 문서 임베딩을 훈련하는 방법을 제안한다. IMDB 데이터셋을 대상으로 수행한 실험 결과, 내적 곱을 사용하는 경우에 비해 코사인 유사도를 사용할 때 정확도가 향상됨을 확인하였으며, 나이브 베이즈 가중 n-그램의 벡터 조합을 활용한 방법은 새로운 최고 성능의 정확도 97.42%를 달성하였다. 모든 실험을 재현할 수 있는 코드는 https://github.com/tanthongtan/dv-cosine 에 공개되어 있다.