
초록
다국어 문서 분류는 한 언어의 자원을 사용하여 문서 분류기를 훈련시키고 추가적인 자원 없이 다른 언어로 전송하는 것을 목표로 합니다. 문헌에서는 여러 접근법이 제안되었으며, 현재 가장 좋은 방법은 Reuters Corpus Volume 2의 하위 집합에서 이를 평가하는 것입니다. 그러나 이 하위 집합은 몇 가지 언어(영어, 독일어, 프랑스어, 스페인어)만을 포함하고 있으며, 거의 모든 발표된 연구는 영어와 독일어 간의 전송에 초점을 맞추고 있습니다. 또한 우리는 각 언어 간의 클래스 사전 확률 분포가 크게 다르다는 것을 관찰하였습니다. 우리는 이러한 차이가 다국어성 평가를 복잡하게 만든다고 주장합니다. 본 논문에서는 여덟 개 언어에 대해 균형 잡힌 클래스 사전 확률을 가진 새로운 Reuters 코퍼스 하위 집합을 제안합니다. 이탈리아어, 러시아어, 일본어 및 중국어를 추가함으로써 구문론, 형태론 등에서 매우 다른 언어들을 포함하게 되었습니다. 우리는 다국어 단어 및 문장 임베딩을 각각 사용하여 모든 언어 전송 방향에 대한 강력한 기준선을 제공합니다. 우리의 목표는 자유롭게 이용 가능한 다국어 문서 분류 평가 프레임워크를 제공하는 것이며, 이를 통해 이 중요한 연구 영역의 발전을 촉진하길 바랍니다.