2달 전
단어와 라벨의 공동 임베딩을 통한 텍스트 분류
Guoyin Wang; Chunyuan Li; Wenlin Wang; Yizhe Zhang; Dinghan Shen; Xinyuan Zhang; Ricardo Henao; Lawrence Carin

초록
워드 임베딩은 텍스트 시퀀스의 표현을 학습할 때 단어 간의 의미적 규칙성을 포착하는 효과적인 중간 표현입니다. 본 연구에서는 텍스트 분류를 라벨-단어 공동 임베딩 문제로 보는 접근법을 제안합니다: 각 라벨은 단어 벡터와 동일한 공간에 임베딩됩니다. 우리는 텍스트 시퀀스와 라벨 사이의 임베딩 호환성을 측정하는 주의(attention) 프레임워크를 소개합니다. 이 주의는 라벨이 부여된 샘플들의 훈련 세트에서 학습되어, 주어진 텍스트 시퀀스에 대해 관련 단어가 비관련 단어보다 더 높은 가중치를 가지도록 합니다. 우리의 방법은 워드 임베딩의 해석 가능성을 유지하며, 입력 텍스트 시퀀스 외에도 다른 정보 출처를 활용할 수 있는 내재된 능력을 가지고 있습니다. 여러 대규모 텍스트 데이터셋에 대한 광범위한 실험 결과는 제안된 프레임워크가 정확성과 속도 면에서 기존 최신 방법들을 크게 능가함을 보여줍니다.