
초록
단어 의미 해석(WSD)는 라벨링된 데이터를 사용하지 않고 주어진 텍스트의 모든 단어를 해석해야 하는 비지도 학습 환경에서 특히 어려우면서도 유용한 자연어 처리 분야의 미해결 문제입니다. 일반적으로 WSD 시스템은 문장이나 대상 단어 주변의 작은 단어 범위를 해석에 사용하는 맥락으로 활용합니다. 이는 맥락의 크기가 커질수록 계산 복잡도가 지수적으로 증가하기 때문입니다. 본 논문에서는 주제 모델의 형식을 활용하여, 맥락 내 단어 수와 선형적으로 확장되는 WSD 시스템을 설계하였습니다. 그 결과, 우리 시스템은 해석해야 하는 단어에 대해 전체 문서를 맥락으로 활용할 수 있게 되었습니다.제안된 방법은 문서의 주제 비율을 동의어 집합(synset) 비율로 대체하는 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 변형입니다. 또한, WordNet에 포함된 정보를 활용하여 단어 위에 동의어 집합 분포에 대한 균일하지 않은 사전 확률(non-uniform prior)과 문서 위에 동의어 집합 분포에 대한 로지스틱-노말 사전 확률(logistic-normal prior)을 할당하였습니다.우리는 제안된 방법을 Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 및 SemEval-2015 영어 전단어 WSD 데이터셋에서 평가하였으며, 이 방법이 현존하는 최고 수준의 비지도 지식 기반 WSD 시스템보다 크게 우수함을 보였습니다.