8 个月前

摘要

主题模型是一种广泛使用的无监督模型，能够从大量文本文档中学习出主题——即加权的词汇列表和文档列表。当主题模型用于发现文本集合中的主题时，一个自然而然产生的问题是：模型生成的主题与分析师感兴趣的主额始终有多大的对应关系。在本文中，我们重新审视并扩展了一种迄今为止被忽视的主题模型评估方法，该方法基于测量主题覆盖率——通过计算手段将模型主题与预期揭示的一组参考主题进行匹配。这种方法非常适合分析模型在主题发现方面的性能以及对大规模的主题模型和模型质量度量进行分析。我们提出了新的覆盖率度量方法，并通过一系列实验评估了不同类型的主題模型在两个具有主題发现兴趣的不同文本域上的表现。实验包括对模型质量的评估、不同主題类别的覆盖率分析以及覆盖率与其他主題模型评估方法之间关系的分析。本文贡献了一个新的有监督的覆盖率度量方法和第一个无监督的覆盖率度量方法。有监督的度量方法达到了接近人类一致性的主題匹配准确率。无监督的度量方法与有监督的方法高度相关（斯皮尔曼等级相关系数 $\rho \geq 0.95$ ）。其他贡献还包括对主題模型及其不同评估方法的深入见解，以及为促进未来关于主題覆盖率研究的数据集和代码。