7일 전
Def2Vec: 사전 정의로부터 확장 가능한 단어 임베딩
{Roberto Tedesco, Vincenzo Scotti, Irene Morazzoni}

초록
Def2Vec은 사전 정의를 활용하여 의미 표현을 학습하는 새로운 단어 임베딩 패러다임을 제안한다. 정의를 기반으로 용어-문서 행렬을 구성하고, 잠재적 의미 분석(Latent Semantic Analysis, LSA)을 적용함으로써, 뛰어난 성능과 확장성을 갖춘 임베딩을 생성한다. 품사 태깅, 명명된 실체 인식, 구문 분해 및 의미 유사도 평가를 포함한 다양한 평가에서 Def2Vec은 Word2Vec, GloVe, fastText과 같은 최첨단 모델과 비슷하거나 이를 초월하는 성능을 보였다. LSA를 통해 도출된 모델의 두 번째 분해 행렬은 사전에 없는 단어(OOV, out-of-vocabulary)에 대한 효율적인 임베딩 확장을 가능하게 한다. 사전 정의의 장점을 LSA 기반 임베딩과 효과적으로 통합함으로써, Def2Vec은 데이터 요구량이 적음에도 불구하고 풍부한 의미 정보를 제공하는 임베딩 표현을 생성한다. 본 연구는 구조화된 어휘 정보를 활용하고, 효율적인 임베딩 확장을 가능하게 함으로써, 단어 임베딩 생성에 대한 이해를 한층 심화시킨다.