16일 전

다중의미 임베딩을 활용한 문서 분류 향상

Vivek Gupta, Ankit Saw, Pegah Nokhiz, Harshit Gupta, Partha Talukdar
다중의미 임베딩을 활용한 문서 분류 향상
초록

텍스트 문서의 효율적인 표현은 많은 자연어 처리(NLP) 작업에서 중요한 기반 요소이다. 장문 분류에 관한 연구들은 문장 표현을 위한 단어 벡터의 단순 가중 평균이 더 복잡한 신경망 모델보다 종종 우수한 성능을 보임을 보여주었다. 최근 제안된 희소 복합 문서 벡터(Sparse Composite Document Vector, SCDV)는 단어 벡터에 대한 소프트 클러스터링을 활용하여 이 접근 방식을 문장에서 문서 수준으로 확장하였다(Mekala 등, 2017). 그러나 SCDV는 단어의 다의성(multi-sense) 특성을 무시하며, 고차원성의 고통(curse of dimensionality) 문제도 겪는다. 본 연구에서는 이러한 한계를 보완하고, SCDV-MS를 제안한다. SCDV-MS는 다의적 단어 임베딩(multi-sense word embeddings)을 활용하며, 낮은 차원의 다양체(manifold)를 학습한다. 다양한 실제 데이터셋에서 실시한 광범위한 실험을 통해, SCDV-MS 임베딩이 다중 클래스 및 다중 레이블 텍스트 분류 작업에서 기존 최고 성능을 기록한 임베딩보다 우수함을 입증하였다. 또한, 텍스트 분류 작업에서 SCDV-MS는 시간 및 공간 복잡도 측면에서 SCDV보다 더 효율적임을 확인하였다.

다중의미 임베딩을 활용한 문서 분류 향상 | 최신 연구 논문 | HyperAI초신경