HyperAIHyperAI

Command Palette

Search for a command to run...

XTREME:用于评估跨语言泛化的大规模多语言多任务基准

Aditya Siddhant Junjie Hu Sebastian Ruder Orhan Firat Melvin Johnson Graham Neubig

摘要

近年来,机器学习模型在自然语言处理(NLP)应用中的诸多进展,主要得益于能够跨多种任务评估模型性能的基准测试。然而,这些覆盖范围广泛的基准测试大多局限于英语,尽管多语言模型的研究兴趣日益增长,但目前仍缺乏一个能够全面评估此类方法在多样化语言和任务上的表现的基准。为此,我们提出了跨语言迁移评估多语言编码器(Cross-lingual TRansfer Evaluation of Multilingual Encoders,简称 XTREME)基准,这是一个多任务基准,用于评估多语言表示在40种语言和9项任务上的跨语言泛化能力。实验表明,尽管在英语任务上测试的模型在许多任务中已达到人类水平表现,但跨语言迁移模型的性能仍存在显著差距,尤其是在句法分析和句子检索等任务上。此外,不同语言之间的性能差异也十分明显。我们将公开发布该基准,以推动跨语言学习方法的研究,促进语言知识在多样化且具有代表性的语言与任务集之间的有效迁移。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供