
초록
전통적인 단어 의미 유도(Word Sense Induction, WSI) 방법은 일반적으로 각 사례를 이산적인 언어 특성이나 공현 특성으로 표현하고, 각 다의어(polysemous word)에 대해 개별적으로 모델을 학습시킵니다. 본 연구에서는 WSI 작업을 위해 의미 임베딩(sense embeddings)을 학습하는 방법을 제안합니다. 학습 단계에서, 제안된 방법은 각 다의어에 대해 여러 개의 의미 중심점(sense centroids, 임베딩)을 유도합니다. 테스트 단계에서는 각 사례를 문맥 벡터로 표현하고, 임베딩 공간에서 가장 가까운 의미 중심점을 찾아 해당 사례의 의미를 유도합니다. 제안된 방법의 장점은 다음과 같습니다: (1) 분산된 의미 벡터는 차별적으로 학습된 지식 표현으로서, 전통적인 빈도 기반 분포 모델보다 보통 더 우수한 성능을 보입니다; (2) 전체 어휘에 대한 일반 모델이 다중태스크 학습(multitask learning framework) 프레임워크 하에서 의미 중심점을 유도하도록 공동으로 학습됩니다. SemEval-2010 WSI 데이터셋에서 평가한 결과, 제안된 방법은 모든 참가자와 대부분의 최근 최신 기법(state-of-the-art methods)보다 우수한 성능을 보였습니다. 우리는 신경하게 설계된 기준선(baselines)과 비교하여 두 가지 장점을 추가로 검증하였습니다.