
초록
실수 값 단어 표현은 NLP 응용 분야를 혁신적으로 변화시켰습니다. 대표적인 예로는 언어 규칙성을 포착하는 능력으로 알려진 word2vec과 GloVe가 있습니다. 본 논문에서는 매우 간단하면서도 직관에 반하는 후처리 기법을 제시합니다. 이 기법은 단어 벡터에서 공통 평균 벡터와 몇 개의 주요 지배 방향을 제거하는 것입니다. 이 후처리 기법은 여러 데이터셋과 다양한 표현 방법 및 하이퍼파라미터 선택을 사용하여 다중 언어에서 수행된 어휘 수준 내재적 작업(단어 유사성, 개념 분류, 단어 유추)과 문장 수준 작업(의미적 텍스트 유사성, 텍스트 분류)에서 실증적으로 검증되었습니다. 각 경우에 대해 처리된 표현이 원래의 표현보다 일관되게 우수함을 확인할 수 있었습니다.