11일 전

더 많은 문맥이 더 나은 성능을 가져온다: 종합적인 단어의미해석을 위한 문맥 기반 의미 임베딩

{Roberto Navigli, Tommaso Pasini, Bianca Scarlini}
더 많은 문맥이 더 나은 성능을 가져온다: 종합적인 단어의미해석을 위한 문맥 기반 의미 임베딩
초록

맥락 기반 단어 임베딩은 자연어 처리 분야의 여러 작업에서 유용한 의미 정보를 담고 있음이 입증되면서 효과적으로 활용되어 왔다. 그러나 이러한 임베딩을 구조화된 지식 소스와 연결하는 것은 여전히 어려운 과제이다. 본 논문에서는 단어의 의미를 담고 있는 어휘 지식 기반 내의 의미를 위한 임베딩을 생성하기 위한 반감독 학습 방식인 ARES(Context-Aware Embeddings of Senses)를 제안한다. ARES는 맥락 기반 단어 벡터와 비교 가능한 공간에 존재하는 의미 임베딩을 생성함으로써, 의미 분석의 정확도를 높이는 데 기여한다. ARES 임베딩은 영어로만 의미 주석이 달린 데이터를 사용하여 학습함에도 불구하고, 영어 및 다국어 단어 의미 해석(Word Sense Disambiguation) 작업에서 최첨단 모델들을 초월하는 성능을 보이며, 단순한 1-최근접 이웃(1 Nearest-Neighbour) 알고리즘으로도 뛰어난 결과를 달성한다. 또한, 단어-맥락(Word-in-Context) 작업에서 제안한 임베딩의 품질을 평가한 결과, 신경망 모델에 외부 지식 소스로 활용할 경우 일관되게 성능을 향상시켜, 더 복잡한 아키텍처들과 경쟁할 수 있는 수준에 도달함을 확인하였다. WordNet의 모든 개념에 대한 ARES 임베딩과 의미 표현 생성에 사용된 자동 추출 맥락은 http://sensembert.org/ares에서 무료로 제공된다.

더 많은 문맥이 더 나은 성능을 가져온다: 종합적인 단어의미해석을 위한 문맥 기반 의미 임베딩 | 최신 연구 논문 | HyperAI초신경