3달 전

스파르시티는 의미를 갖는다: 스파스한 컨텍스트화된 단어 표현을 활용한 단어의 의미 해석

{G{\'a}bor Berend}
스파르시티는 의미를 갖는다: 스파스한 컨텍스트화된 단어 표현을 활용한 단어의 의미 해석
초록

본 논문에서는 희소 단어 표현을 활용함으로써, 세부적인 모든 단어에 대한 의미 해석 분류( fine-grained all-words word sense disambiguation) 과제에서 더 복잡한 작업 지향 모델의 성능을 넘어서는 것이 가능함을 보여준다. 제안하는 알고리즘은 과잉 완비(semantically overcomplete)한 의미 기저 벡터 집합에 기반하여, 희소화된 문맥적 단어 표현을 얻을 수 있도록 한다. 우리는 단어 의미의 동시 등장(co-occurrence)과 단어 형태의 비영 좌표(non-zero coordinates)를 기반으로 정보 이론에 영감을 받은 동의어 집합(synset) 표현 방식을 제안한다. 이를 통해 다섯 개의 표준 의미 해석 분류 벤치마크 데이터셋의 조합에서 총합 F-점수 78.8을 달성하였다. 또한, 네 개의 서로 다른 트리뱅크(treebanks)에서 품사 태깅(part-of-speech tagging) 과제에 대한 평가를 통해 제안한 프레임워크의 일반적 적용 가능성을 입증하였다. 실험 결과는 밀도 있는 단어 표현 방식을 적용한 경우에 비해 상당한 성능 향상을 보였다.