
초록
오늘날의 자연어 처리(NLP) 연구에서 단어의 분산 표현을 학습하기 위한 비지도 방법은 매우 흔하지만, 라벨링되지 않은 데이터로부터 구문이나 문장의 분산 표현을 학습하는 최선의 방법에 대해서는 아직 잘 알려져 있지 않습니다. 본 논문에서는 이러한 표현을 학습하는 모델들의 체계적인 비교를 수행하였습니다. 우리는 최적 접근 방식이 목적한 응용 프로그램에 크게 의존함을 발견하였습니다. 감독된 시스템에서 사용될 표현에는 깊고 복잡한 모델이 더 우수하지만, 간단한 공간 거리 측정법으로 디코딩할 수 있는 표현 공간을 구축하는 데에는 얕은 로그-선형 모델이 가장 효과적입니다. 또한 우리는 훈련 시간, 도메인 이동성 및 성능 사이의 균형을 최적화하도록 설계된 두 가지 새로운 비지도 표현 학습 목표를 제안합니다.