11일 전
긴 꼬리 클래스 분포를 가진 다중 레이블 텍스트 분류를 위한 균형화 방법
Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli

초록
다중 레이블 텍스트 분류는 레이블 간의 종속 관계를 포착해야 하므로 도전적인 작업이다. 클래스 분포가 긴 꼬리(long-tailed) 형태를 띨 경우 더욱 어려워진다. 클래스 불균형 문제를 해결하기 위해 일반적으로 리샘플링과 리웨이팅 기법이 사용되지만, 클래스 불균형 외에도 레이블 간 종속성이 존재할 경우 이들 기법은 흔한 레이블의 과도한 샘플링을 유도하여 효과가 떨어진다. 본 연구에서는 다중 레이블 텍스트 분류에 균형 손실 함수(balancing loss functions)를 적용하는 방법을 제안한다. 일반 도메인 데이터셋(90개 레이블, Reuters-21578)과 PubMed에서 얻은 도메인 특화 데이터셋(18211개 레이블)을 대상으로 실험을 수행한 결과, 클래스 불균형과 레이블 연결 문제를 내재적으로 해결할 수 있는 분포 균형 손실 함수가 기존에 널리 사용되는 손실 함수보다 우수한 성능을 보였다. 분포 균형 기법은 이미지 인식 분야에서 성공적으로 적용된 바 있으나, 본 연구에서는 자연어 처리(NLP) 분야에서도 그 효과를 입증하였다. 소스 코드는 https://github.com/Roche/BalancedLossNLP 에서 제공된다.