
초록
본 논문에서는 텍스트 문서를 표현하기 위한 새로운 방법을 제안합니다. 이 방법은 이미지 표현에 사용되는 로컬리 집계된 디스크립터의 벡터(Vector of Locally-Aggregated Descriptors)에서 영감을 받아, 단어 임베딩 벡터를 문서 임베딩으로 집계하는 기반으로 이루어져 있습니다. 본 접근법은 다음과 같이 작동합니다. 먼저, 문서 컬렉션에서 수집된 단어 임베딩들이 k-평균 알고리즘을 통해 클러스터링되어 의미적으로 관련된 단어 임베딩들의 코드북(codebook)을 학습합니다. 각 단어 임베딩은 가장 가까운 클러스터 중심점(코드워드)과 연결됩니다. 그런 다음, 문서의 로컬리 집계된 단어 임베딩 벡터(Vector of Locally-Aggregated Word Embeddings, VLAWE) 표현은 각 코드워드 벡터와 해당 코드워드에 연결된 각 단어 벡터(문서에서) 사이의 차이를 누적하여 계산됩니다. 우리는 비지도 방식으로 학습된 VLAWE 표현을 분류기에 적용하여 다양한 텍스트 분류 작업에 유용함을 보여줍니다. 또한, 최근의 다양한 최신 방법들과 비교하여 본 접근법의 효과성을 입증하였습니다. 더욱이, 영화 리뷰 데이터 세트에서 상당한 개선을 이루어 93.3%의 정확도를 보고하였으며, 이는 최신 접근법 대비 절대적인 10%의 성능 향상입니다. 우리의 코드는 https://github.com/raduionescu/vlawe-boswe/에서 확인할 수 있습니다.