2 个月前

通过破坏实现文档的有效向量表示

Minmin Chen
通过破坏实现文档的有效向量表示
摘要

我们提出了一种高效的文档表示学习框架——通过破坏生成的文档向量(Doc2VecC)。Doc2VecC 将每个文档表示为词嵌入的简单平均值。该方法确保在学习过程中生成的表示能够捕捉文档的语义含义。Doc2VecC 包含一个破坏模型,该模型引入了数据依赖的正则化,倾向于保留信息丰富或罕见的词语,同时迫使常见且不具备区分性的词语嵌入接近零。与 Word2Vec 相比,Doc2VecC 生成的词嵌入显著更好。我们将 Doc2VecC 与几种最先进的文档表示学习算法进行了比较。Doc2VecC 引入的简单模型架构在生成高质量文档表示方面达到了或超过了现有最先进水平,适用于情感分析、文档分类以及语义相关性任务。此外,该模型能够在单台机器上以每小时数十亿词的速度进行训练。同时,该模型在测试时生成未见过的文档表示也非常高效。