11일 전
더 많은 문맥이 더 나은 성능을 가져온다: 종합적인 단어의미해석을 위한 문맥 기반 의미 임베딩
{Roberto Navigli, Tommaso Pasini, Bianca Scarlini}

초록
맥락 기반 단어 임베딩은 자연어 처리 분야의 여러 작업에서 유용한 의미 정보를 담고 있음이 입증되면서 효과적으로 활용되어 왔다. 그러나 이러한 임베딩을 구조화된 지식 소스와 연결하는 것은 여전히 어려운 과제이다. 본 논문에서는 단어의 의미를 담고 있는 어휘 지식 기반 내의 의미를 위한 임베딩을 생성하기 위한 반감독 학습 방식인 ARES(Context-Aware Embeddings of Senses)를 제안한다. ARES는 맥락 기반 단어 벡터와 비교 가능한 공간에 존재하는 의미 임베딩을 생성함으로써, 의미 분석의 정확도를 높이는 데 기여한다. ARES 임베딩은 영어로만 의미 주석이 달린 데이터를 사용하여 학습함에도 불구하고, 영어 및 다국어 단어 의미 해석(Word Sense Disambiguation) 작업에서 최첨단 모델들을 초월하는 성능을 보이며, 단순한 1-최근접 이웃(1 Nearest-Neighbour) 알고리즘으로도 뛰어난 결과를 달성한다. 또한, 단어-맥락(Word-in-Context) 작업에서 제안한 임베딩의 품질을 평가한 결과, 신경망 모델에 외부 지식 소스로 활용할 경우 일관되게 성능을 향상시켜, 더 복잡한 아키텍처들과 경쟁할 수 있는 수준에 도달함을 확인하였다. WordNet의 모든 개념에 대한 ARES 임베딩과 의미 표현 생성에 사용된 자동 추출 맥락은 http://sensembert.org/ares에서 무료로 제공된다.