
초록
어떤 단어의 의미 중심에 있는 요소가 무엇인지, 그리고 다른 단어들과 구분되는 특징이 무엇인지 파악하는 것은 자연어 추론(Natural Language Inference)의 핵심 과제 중 하나이다. 본 논문은 이러한 구분적 특징을 식별하는 데 기여할 수 있는 명시적 단어 벡터 표현 모델(Word Vector Model, WVM)을 제안한다. 본 연구의 핵심 기여점은 설명 가능하고 명시적인 WVM 구축에 활용 가능한 다양한 데이터 소스 및 지식 기반(Knowledge Bases) 간의 정량적·정성적 비교 분석을 수행한 점이다. 구체적으로는 (i) 사전 정의를 기반으로 구축한 지식 그래프, (ii) 이미지에서 유도한 개체-속성-관계 그래프, (iii) 보편적 지식(commonsense knowledge) 그래프를 대상으로 분석하였다. 세부적인 정량적·정성적 분석을 통해 이러한 데이터 소스들이 서로 보완적인 의미적 특성을 지니며, 명시적인 의미 벡터 공간을 구성하는 데 기여할 수 있음을 입증하였다. 제안된 명시적 벡터 공간은 구분적 특징 식별 작업을 통해 평가되었으며, 최신 기술 수준 시스템과 비교해 유사한 성능(F1-score = 0.69)을 달성하면서도 모델의 완전한 투명성과 설명 가능성을 제공함을 보였다.