
초록
다중 레이블 텍스트 분류(Multi-label Text Classification, MLTC)의 주요 과제 중 하나는 가능한 레이블 간 차이와 레이블 간 상관관계를 효과적으로 탐색하는 것이다. 본 논문에서는 이러한 과제를 해결하기 위해 레이블별 사전 훈련(Label-Wise Pre-Training, LW-PT) 방법을 제안하여 레이블 인지 정보를 포함한 문서 표현을 얻는다. 핵심 아이디어는 다중 레이블 문서가 여러 레이블별 표현의 조합으로 표현될 수 있으며, 관련성이 높은 레이블은 항상 동일하거나 유사한 문서에서 함께 등장한다는 점이다. LW-PT는 이 아이디어를 구현하기 위해 레이블별 문서 분류 작업을 구성하고, 각 레이블별 문서 인코더를 훈련한다. 이후 사전 훈련된 레이블별 인코더를 하류의 MLTC 작업에 대해 미세 조정(fine-tuning)한다. 광범위한 실험 결과는 제안한 방법이 기존 최고 성능 모델에 비해 뚜렷한 우수성을 보이며, 합리적인 레이블 간 관계를 탐지할 수 있음을 입증한다. 코드는 다른 연구자들의 연구를 지원하기 위해 공개되었다.