词嵌入 Word Embedding
词嵌入是自然语言处理中的语言模型和表征学习技术的统称。概念上而言,它是指将单词从高维空间嵌入到低维连续向量空间中,每个单词或词组会被映射为实数域上的向量。
目前词嵌入的方法包括人工神经网络、词语同线矩阵降维、概率模型和单词所在上下文显性表示等,在底层输入中,词嵌入表示词组的方法可提升语法分析器和文本情感分析的效果。
词嵌入算法
- 嵌入层:与特定自然语言处理任务的神经网络模型共同学习的方法;
- Word2Vec:统计学方法的一种,可从文本语料库中高效学习独立的词嵌入;
- GloVe:对 Word2Vec 方法的一个扩展,可以高效的学习词向量。