2달 전
라벨 인식 문서 표현을 위한 하이브리드 어텐션 기반 극단적 다중 라벨 텍스트 분류
Xin Huang; Boli Chen; Lin Xiao; Liping Jing

초록
극단적 다중 라벨 텍스트 분류(XMTC)는 매우 큰 규모의 라벨 집합에서 문서에 가장 관련성이 높은 라벨을 부착하는 것을 목표로 합니다. 특히 꼬리 라벨(tail labels)에 대한 문제는 분류기를 구축하기 위한 학습 문서가 적기 때문에 어려운 문제입니다. 본 논문은 문서 내용과 라벨 상관관계를 활용하여 각 문서와 극단적인 라벨 간의 의미적 관계를 더 잘 탐색하고자 하는 동기에 기반합니다. 우리의 목표는 하이브리드 주의 깊이 신경망 모델(LAHA)을 사용하여 각 문서에 대해 명시적인 라벨 인식 표현을 설정하는 것입니다. LAHA는 세 부분으로 구성됩니다. 첫 번째 부분은 다중 라벨 자기 주의 메커니즘을 채택하여 각 단어가 라벨에 미치는 영향을 감지합니다. 두 번째 부분은 라벨 구조와 문서 내용을 활용하여 같은 잠재 공간에서 단어와 라벨 간의 의미적 연결을 결정합니다. 세 번째 부분에서는 적응 융합 전략을 설계하여 이전 두 부분의 본질이 충분히 통합될 수 있도록 최종적인 라벨 인식 문서 표현을 얻습니다. 여섯 개의 벤치마크 데이터셋에서 최신 방법들과 비교한 광범위한 실험들이 수행되었습니다. 실험 결과, 제안된 LAHA 방법이 특히 꼬리 라벨(tail labels)에서 우수함을 보여주었습니다.