11일 전

긴 꼬리 클래스 분포를 가진 다중 레이블 텍스트 분류를 위한 균형화 방법

Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli
긴 꼬리 클래스 분포를 가진 다중 레이블 텍스트 분류를 위한 균형화 방법
초록

다중 레이블 텍스트 분류는 레이블 간의 종속 관계를 포착해야 하므로 도전적인 작업이다. 클래스 분포가 긴 꼬리(long-tailed) 형태를 띨 경우 더욱 어려워진다. 클래스 불균형 문제를 해결하기 위해 일반적으로 리샘플링과 리웨이팅 기법이 사용되지만, 클래스 불균형 외에도 레이블 간 종속성이 존재할 경우 이들 기법은 흔한 레이블의 과도한 샘플링을 유도하여 효과가 떨어진다. 본 연구에서는 다중 레이블 텍스트 분류에 균형 손실 함수(balancing loss functions)를 적용하는 방법을 제안한다. 일반 도메인 데이터셋(90개 레이블, Reuters-21578)과 PubMed에서 얻은 도메인 특화 데이터셋(18211개 레이블)을 대상으로 실험을 수행한 결과, 클래스 불균형과 레이블 연결 문제를 내재적으로 해결할 수 있는 분포 균형 손실 함수가 기존에 널리 사용되는 손실 함수보다 우수한 성능을 보였다. 분포 균형 기법은 이미지 인식 분야에서 성공적으로 적용된 바 있으나, 본 연구에서는 자연어 처리(NLP) 분야에서도 그 효과를 입증하였다. 소스 코드는 https://github.com/Roche/BalancedLossNLP 에서 제공된다.

긴 꼬리 클래스 분포를 가진 다중 레이블 텍스트 분류를 위한 균형화 방법 | 최신 연구 논문 | HyperAI초신경