2 个月前

八种语言的多语种文档分类语料库

Holger Schwenk; Xian Li
八种语言的多语种文档分类语料库
摘要

跨语言文档分类的目标是在一种语言的资源上训练文档分类器,并将其转移到另一种语言而无需额外资源。文献中提出了多种方法,目前最佳实践是在路透社语料库第二卷(Reuters Corpus Volume 2)的一个子集上对这些方法进行评估。然而,该子集仅涵盖少数几种语言(英语、德语、法语和西班牙语),且几乎所有已发表的研究都集中在英语和德语之间的转移。此外,我们观察到不同语言之间的类别先验分布存在显著差异。我们认为这使得多语言性的评估变得更加复杂。在本文中,我们提出了一种新的路透社语料库子集,该子集包含八种语言的平衡类别先验分布。通过增加意大利语、俄语、日语和汉语,我们涵盖了在句法、形态学等方面差异很大的语言。我们为所有语言转移方向提供了强大的基线模型,分别使用了多语言词嵌入和句子嵌入。我们的目标是提供一个自由可用的框架来评估跨语言文档分类,并希望通过这些手段促进这一重要领域的研究。

八种语言的多语种文档分类语料库 | 最新论文 | HyperAI超神经