词嵌入 Word embedding

词嵌入是自然语言处理中的语言模型和表征学习技术的统称。概念上而言,它是指将单词从高维空间嵌入到低维连续向量空间中,每个单词或词组会被映射为实数域上的向量。

目前词嵌入的方法包括人工神经网络、词语同线矩阵降维、概率模型和单词所在上下文显性表示等,在底层输入中,词嵌入表示词组的方法可提升语法分析器和文本情感分析的效果。

词嵌入算法

  • 嵌入层:与特定自然语言处理任务的神经网络模型共同学习的方法;
  • Word2Vec:统计学方法的一种,可从文本语料库中高效学习独立的词嵌入;
  • GloVe:对 Word2Vec 方法的一个扩展,可以高效的学习词向量。