12일 전

라벨별 문서 표현을 활용한 다중 레이블 텍스트 분류

{Liping Jing, Boli Chen, Lin Xiao, Xin Huang}
라벨별 문서 표현을 활용한 다중 레이블 텍스트 분류
초록

다중 레이블 텍스트 분류(Multi-label text classification, MLTC)는 주어진 문서에 가장 관련성이 높은 레이블들을 할당하는 것을 목표로 한다. 본 논문에서는 레이블별 문서 표현을 학습하기 위해 레이블 특화 주의망(Label-Specific Attention Network, LSAN)을 제안한다. LSAN은 레이블의 의미 정보를 활용하여 레이블과 문서 간의 의미적 연결을 파악함으로써 레이블별 문서 표현을 구성한다. 동시에, 자기 주의(self-attention) 메커니즘을 도입하여 문서의 내용 정보로부터 레이블 특화된 문서 표현을 탐지한다. 위 두 가지 요소를 원활하게 통합하기 위해 적응형 융합 전략을 제안하였으며, 이는 종합적인 레이블 특화 문서 표현을 효과적으로 출력하여 다중 레이블 텍스트 분류기 구축에 기여한다. 광범위한 실험 결과는 LSAN이 네 가지 다른 데이터셋에서 최신 기법들을 지속적으로 상회함을 보여주며, 특히 낮은 빈도의 레이블 예측에서 뛰어난 성능을 발휘함을 확인할 수 있다. 코드 및 하이퍼파라미터 설정은 다른 연구자들의 연구를 촉진하기 위해 공개된다.

라벨별 문서 표현을 활용한 다중 레이블 텍스트 분류 | 최신 연구 논문 | HyperAI초신경