2달 전

라벨링되지 않은 데이터에서 문장의 분산 표현 학습

Felix Hill; Kyunghyun Cho; Anna Korhonen
라벨링되지 않은 데이터에서 문장의 분산 표현 학습
초록

오늘날의 자연어 처리(NLP) 연구에서 단어의 분산 표현을 학습하기 위한 비지도 방법은 매우 흔하지만, 라벨링되지 않은 데이터로부터 구문이나 문장의 분산 표현을 학습하는 최선의 방법에 대해서는 아직 잘 알려져 있지 않습니다. 본 논문에서는 이러한 표현을 학습하는 모델들의 체계적인 비교를 수행하였습니다. 우리는 최적 접근 방식이 목적한 응용 프로그램에 크게 의존함을 발견하였습니다. 감독된 시스템에서 사용될 표현에는 깊고 복잡한 모델이 더 우수하지만, 간단한 공간 거리 측정법으로 디코딩할 수 있는 표현 공간을 구축하는 데에는 얕은 로그-선형 모델이 가장 효과적입니다. 또한 우리는 훈련 시간, 도메인 이동성 및 성능 사이의 균형을 최적화하도록 설계된 두 가지 새로운 비지도 표현 학습 목표를 제안합니다.