
초록
연속적인 단어 표현(단어 임베딩)은 자연어 처리 작업에서 사용되는 많은 신경망 기반 모델의 기본 구성 요소입니다. 비록 유사한 의미를 가진 단어들이 임베딩 공간에서 서로 가까워야 한다는 것이 널리 받아들여지고 있지만, 우리는 여러 작업에서 학습된 단어 임베딩이 단어 빈도에 편향되어 있다는 것을 발견했습니다. 고빈도 단어와 저빈도 단어의 임베딩은 임베딩 공간의 다른 하위 영역에 위치하며, 의미적으로 유사한 경우에도 드문 단어와 일반적인 단어의 임베딩은 서로 멀리 떨어져 있을 수 있습니다. 이로 인해 학습된 단어 임베딩은 특히 드문 단어에 대해 효과적이지 않으며, 결과적으로 이러한 신경망 모델의 성능을 제한합니다. 본 논문에서는 적대적 훈련을 사용하여 간결하고 간단하지만 효과적인 방법으로 \emph{빈도 무관 단어 임베딩} (FRequency-AGnostic word Embedding, FRAGE)을 학습하는 방법을 개발하였습니다. 우리는 4개의 자연어 처리 작업, 즉 단어 유사성, 언어 모델링, 기계 번역 및 텍스트 분류를 포함하는 10개 데이터셋에서 포괄적인 연구를 수행하였습니다. 결과는 FRAGE를 사용하면 모든 작업에서 기준선보다 더 높은 성능을 달성할 수 있음을 보여줍니다.