
摘要
许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时,最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎,但它有两个主要缺点:一是丢失了词语的顺序,二是忽略了词语的语义。例如,“powerful”(强大的)、“strong”(强壮的)和“Paris”(巴黎)之间的距离相等。本文提出了一种无监督算法——段落向量(Paragraph Vector),该算法从可变长度的文本片段(如句子、段落和文档)中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词,从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明,段落向量在文本表示方面优于词袋模型和其他技术。最终,我们在多个文本分类和情感分析任务上取得了新的最佳结果。