摘要
近年来,机器学习模型在自然语言处理(NLP)应用中的诸多进展,主要得益于能够跨多种任务评估模型性能的基准测试。然而,这些覆盖范围广泛的基准测试大多局限于英语,尽管多语言模型的研究兴趣日益增长,但目前仍缺乏一个能够全面评估此类方法在多样化语言和任务上的表现的基准。为此,我们提出了跨语言迁移评估多语言编码器(Cross-lingual TRansfer Evaluation of Multilingual Encoders,简称 XTREME)基准,这是一个多任务基准,用于评估多语言表示在40种语言和9项任务上的跨语言泛化能力。实验表明,尽管在英语任务上测试的模型在许多任务中已达到人类水平表现,但跨语言迁移模型的性能仍存在显著差距,尤其是在句法分析和句子检索等任务上。此外,不同语言之间的性能差异也十分明显。我们将公开发布该基准,以推动跨语言学习方法的研究,促进语言知识在多样化且具有代表性的语言与任务集之间的有效迁移。