1 个月前

利用子词信息丰富词向量

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov
利用子词信息丰富词向量
摘要

连续词表示,通过在大规模未标注语料库上训练,对许多自然语言处理任务非常有用。现有的流行模型在学习这些表示时忽略了词的形态学特征,为每个词分配一个独立的向量。这在处理词汇量大且包含大量罕见词的语言时是一个限制。本文提出了一种基于skip-gram模型的新方法,其中每个词被表示为字符$n$-gram(即长度为$n$的字符序列)的集合。每个字符$n$-gram都有一个对应的向量表示;词语则由这些向量表示的和来表示。我们的方法速度快,能够在大规模语料库上快速训练模型,并且可以计算出未出现在训练数据中的词语的表示。我们在九种不同的语言上评估了我们的词表示,在词汇相似性和类比任务中进行了测试。通过与最近提出的形态学词表示进行比较,我们展示了我们的向量在这类任务中达到了最先进的性能。

利用子词信息丰富词向量 | 最新论文 | HyperAI超神经