
초록
우리는 효율적인 문서 표현 학습 프레임워크인 '부패를 통한 문서 벡터(Doc2VecC)'를 제시합니다. Doc2VecC는 각 문서를 단어 임베딩의 간단한 평균으로 표현합니다. 이 방법은 학습 과정에서 생성된 표현이 문서의 의미적 의미를 포착하도록 보장합니다. 또한 부패 모델이 포함되어 있어, 이 모델은 정보가 풍부하거나 드문 단어를 선호하면서 일반적이고 구별력이 없는 단어들의 임베딩을 0에 가깝게 강제하는 데이터 종속적 정규화를 도입합니다. Doc2VecC는 Word2Vec보다 상당히 더 나은 단어 임베딩을 생성합니다. 우리는 Doc2VecC를 여러 최신 문서 표현 학습 알고리즘과 비교하였습니다. Doc2VecC가 소개한 간단한 모델 아키텍처는 감성 분석, 문서 분류 및 의미적 관련성 작업에서 고품질의 문서 표현을 생성하는 데 있어 최신 기술과 일치하거나 그 이상의 성능을 보입니다. 이 모델의 간결함 덕분에 단일 머신에서 시간당 수십억 개의 단어에 대한 학습이 가능하며, 동시에 테스트 시점에서 미확인된 문서의 표현을 생성하는 데 매우 효율적입니다.