2 个月前

为157种语言学习词向量

Edouard Grave; Piotr Bojanowski; Prakhar Gupta; Armand Joulin; Tomas Mikolov
为157种语言学习词向量
摘要

分布式词表示,或称为词向量,近年来已被应用于自然语言处理中的许多任务,取得了最先进的性能。这些表示成功应用的关键在于使用非常大的语料库进行训练,并在下游任务中使用这些预训练模型。本文描述了我们如何为157种语言训练高质量的词向量。我们使用了两个数据来源来训练这些模型:免费在线百科全书维基百科和来自通用爬虫项目的数据。此外,我们还引入了三个新的词类比数据集,用于评估这些词向量,分别针对法语、印地语和波兰语。最后,我们在存在评估数据集的10种语言上对我们的预训练词向量进行了评估,结果显示其性能远超以往的模型。

为157种语言学习词向量 | 最新论文 | HyperAI超神经