8 个月前

自然语言处理

自然语言处理

Alexis Conneau Guillaume Lample Ruty Rinott Holger Schwenk Ves Stoyanov Adina Williams Samuel R. Bowman

摘要

最先进的自然语言处理系统依赖于注释数据形式的监督来学习有效的模型。这些模型通常是在单一语言（通常是英语）的数据上进行训练的，因此无法直接应用于其他语言。由于在每种语言中收集数据并不现实，近年来对跨语言理解（XLU）和低资源跨语言迁移的兴趣日益增长。在这项工作中，我们通过扩展多类型自然语言推理语料库（MultiNLI）的开发集和测试集至15种语言，包括斯瓦希里语和乌尔都语等低资源语言，构建了一个用于XLU的评估集。我们希望我们的数据集，命名为XNLI，能够通过提供一个有信息量的标准评估任务来促进跨语言句子理解的研究。此外，我们还提供了几种多语言句子理解的基线方法，其中包括两种基于机器翻译系统的基线方法，以及两种利用平行数据训练对齐的多语言词袋模型和LSTM编码器的方法。我们发现XNLI代表了一个实用且具有挑战性的评估套件，并且直接翻译测试数据在现有的基线方法中表现最佳。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Alexis Conneau Guillaume Lample Ruty Rinott Holger Schwenk Ves Stoyanov Adina Williams Samuel R. Bowman

摘要

最先进的自然语言处理系统依赖于注释数据形式的监督来学习有效的模型。这些模型通常是在单一语言（通常是英语）的数据上进行训练的，因此无法直接应用于其他语言。由于在每种语言中收集数据并不现实，近年来对跨语言理解（XLU）和低资源跨语言迁移的兴趣日益增长。在这项工作中，我们通过扩展多类型自然语言推理语料库（MultiNLI）的开发集和测试集至15种语言，包括斯瓦希里语和乌尔都语等低资源语言，构建了一个用于XLU的评估集。我们希望我们的数据集，命名为XNLI，能够通过提供一个有信息量的标准评估任务来促进跨语言句子理解的研究。此外，我们还提供了几种多语言句子理解的基线方法，其中包括两种基于机器翻译系统的基线方法，以及两种利用平行数据训练对齐的多语言词袋模型和LSTM编码器的方法。我们发现XNLI代表了一个实用且具有挑战性的评估套件，并且直接翻译测试数据在现有的基线方法中表现最佳。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供