2달 전
EU 입법에 대한 대규모 다중 레이블 텍스트 분류
Ilias Chalkidis; Manos Fergadiotis; Prodromos Malakasiotis; Ion Androutsopoulos

초록
법률 분야에서 대규모 다중 라벨 텍스트 분류(LMTC)를 고려합니다. 우리는 EURLEX에서 57,000건의 입법 문서를 ~4,300개의 EUROVOC 라벨로 주석 처리한 새로운 데이터셋을 공개합니다. 이 데이터셋은 LMTC, 소수 샘플 학습(few-shot learning), 무 샘플 학습(zero-shot learning)에 적합합니다. 여러 신경망 분류기들을 실험한 결과, 라벨별 주의 메커니즘(label-wise attention)을 사용한 BIGRU가 다른 최신 방법들보다 더 우수한 성능을 보임을 확인했습니다. 분야 특화 WORD2VEC 및 문맥 감응 ELMO 임베딩이 성능을 더욱 개선하는 것으로 나타났습니다. 또한 문서의 특정 영역만 고려해도 충분하다는 점을 발견했습니다. 이를 통해 BERT의 최대 텍스트 길이 제한을 우회하고 BERT를 미세 조정하여, 무 샘플 학습 경우를 제외하고 모든 경우에서 가장 좋은 결과를 얻었습니다.