단어 임베딩 정규화와 소프트 유사도 측정을 이용한 텍스트 분류

미코로프(Mikolov) 등이 수행한 획기적인 연구 이후, 단어 임베딩(word embeddings)은 자연어 처리(NLP) 작업에서 선호되는 단어 표현 방식으로 자리 잡았다. 단어 임베딩에서 추출한 문서 유사도 측정법, 예를 들어 소프트 코사인 측정(soft cosine measure, SCM)과 워드 무버의 거리(Word Mover's Distance, WMD)는 의미적 텍스트 유사도 및 텍스트 분류 작업에서 최첨단 성능을 달성한 것으로 보고되었다.WMD는 텍스트 분류 및 의미적 텍스트 유사도 측정에서 뛰어난 성능을 보이지만, 평균 시간 복잡도가 초3차(super-cubic)에 달해 실용적이지 않다. SCM은 최악의 경우 시간 복잡도가 2차이지만, WMD와의 텍스트 분류 성능 비교는 아직 이루어지지 않았다. 최근 두 가지 단어 임베딩 정규화 기법이 저장 용량과 메모리 비용을 감소시키고, 학습 속도, 문서 처리 속도, 단어 유추(word analogy), 단어 유사도, 의미적 텍스트 유사도 등의 작업 성능을 향상시킨다는 것이 입증되었다. 그러나 이러한 기법이 텍스트 분류 작업에 미치는 영향은 아직 연구되지 않았다.본 연구에서는 두 가지 단어 임베딩 정규화 기법의 개별적 및 종합적 효과를 SCM과 WMD의 문서 처리 속도 및 텍스트 분류 작업 성능에 대해 조사한다. 평가를 위해 $k$NN 분류기와 BBCSPORT, TWITTER, OHSUMED, REUTERS-21578, AMAZON, 20NEWS 총 6개의 표준 데이터셋을 사용한다.정규화된 단어 임베딩을 사용할 경우 비정규화된 임베딩 대비 평균 $k$NN 테스트 오류를 39% 감소시킴을 보였다. 또한 콜레스키 분해(Cholesky factorization)를 통해 이러한 정규화된 임베딩을 실용적으로 도출하는 절차를 제시하였다. 더불어 정규화된 임베딩을 사용한 SCM은 텍스트 분류에서 WMD를 크게 앞서며, 처리 속도는 1만 배 이상 빠르다는 것을 입증하였다.