
摘要
近年来,受变分自编码器(Variational Autoencoders, VAEs)启发的神经主题模型(Neural Topic Models, NTMs)因其在文本分析任务中展现出的优异性能,受到了越来越多研究者的关注。然而,现有NTMs往往难以同时实现高质量的文档表示以及主题的一致性与多样性。此外,它们在处理短文本时性能通常会显著下降。同时,现有方法对重参数化(reparameterization)的依赖也会影响训练质量与模型灵活性。为解决上述问题,本文提出了一种基于最优传输理论(Optimal Transport, OT)的新一代神经主题模型。具体而言,我们通过直接最小化文档与其词分布之间的最优传输距离,来学习文档的主题分布。尤为重要的是,OT距离中的代价矩阵刻画了主题与词之间的权重关系,该矩阵由嵌入空间中主题与词之间的距离构建而成。所提出的模型可采用可微分的损失函数实现高效训练。大量实验结果表明,与当前最先进的NTMs相比,本文框架在发现更具一致性与多样性的主题,以及为常规文本和短文本生成更优文档表示方面均显著优于现有方法。