2 个月前

嵌入空间中的主题建模

Adji B. Dieng; Francisco J. R. Ruiz; David M. Blei
嵌入空间中的主题建模
摘要

主题建模通过分析文档来学习有意义的词汇模式。然而,现有的主题模型在处理大型且长尾分布的词汇表时,无法学习到可解释的主题。为此,我们开发了嵌入式主题模型(Embedded Topic Model, ETM),这是一种结合了传统主题模型与词嵌入的文档生成模型。具体而言,该模型使用一个分类分布来表示每个词,其自然参数是词嵌入与其分配主题的嵌入之间的内积。为了拟合ETM,我们开发了一种高效的摊销变分推断算法。即使在包含罕见词和停用词的大规模词汇表中,ETM也能发现可解释的主题。在主题质量和预测性能方面,ETM均优于现有的文档模型,如潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)。

嵌入空间中的主题建模 | 最新论文 | HyperAI超神经